2014-10-07 58 views
0

我想在DynamoDB表上運行MapReduce作業。 我的問題是:在dynamoDB數據上運行EMR作業

可以將所有的表格(即使它非常大,有數千萬條目)轉儲到S3上的一個文件中嗎?

也就是說,MapReduce知道將這些文件的「塊」分發給映射器嗎?或者是在S3上爲映射器提供一個文件的原子單元,然後我需要將表格分解成許多小文件,例如,生成最多10,0000行的文件。

如果是這種情況,是否有辦法使用AWS Data Pipline將dynamoDB錶轉儲到S3上的多個不同文件中?

謝謝!

回答

1

你可以看到這DynamoDB數據導出到S3

https://aws.amazon.com/articles/Elastic-MapReduce/28549

檢查導出存儲在DynamoDB到Amazon S3的數據。

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html

視頻在 http://www.youtube.com/watch?v=RlKndm22bXw

希望這有助於。

+0

嘿,這有幫助。但我的問題是關於通過首先將DynamoDB數據轉儲到S3來運行流式作業,以及如果可以將其轉儲到一個「大」文件或者我應該將它分區爲幾個,那麼運行流作業。 我可以直接在DynamoDB上運行流式作業嗎?您的鏈接只討論Hive查詢。 – eran 2014-10-09 12:28:26

相關問題