在dynamoDB數據上運行EMR作業

我想在DynamoDB表上運行MapReduce作業。我的問題是：在dynamoDB數據上運行EMR作業

可以將所有的表格（即使它非常大，有數千萬條目）轉儲到S3上的一個文件中嗎？

也就是說，MapReduce知道將這些文件的「塊」分發給映射器嗎？或者是在S3上爲映射器提供一個文件的原子單元，然後我需要將表格分解成許多小文件，例如，生成最多10,0000行的文件。

如果是這種情況，是否有辦法使用AWS Data Pipline將dynamoDB錶轉儲到S3上的多個不同文件中？

謝謝！

2014-10-07 eran

你可以看到這DynamoDB數據導出到S3

檢查導出存儲在DynamoDB到Amazon S3的數據。

希望這有助於。

2014-10-08 10:54:49

嘿，這有幫助。但我的問題是關於通過首先將DynamoDB數據轉儲到S3來運行流式作業，以及如果可以將其轉儲到一個「大」文件或者我應該將它分區爲幾個，那麼運行流作業。我可以直接在DynamoDB上運行流式作業嗎？您的鏈接只討論Hive查詢。 – eran 2014-10-09 12:28:26

回答