0
我想在DynamoDB表上運行MapReduce作業。 我的問題是:在dynamoDB數據上運行EMR作業
可以將所有的表格(即使它非常大,有數千萬條目)轉儲到S3上的一個文件中嗎?
也就是說,MapReduce知道將這些文件的「塊」分發給映射器嗎?或者是在S3上爲映射器提供一個文件的原子單元,然後我需要將表格分解成許多小文件,例如,生成最多10,0000行的文件。
如果是這種情況,是否有辦法使用AWS Data Pipline將dynamoDB錶轉儲到S3上的多個不同文件中?
謝謝!
嘿,這有幫助。但我的問題是關於通過首先將DynamoDB數據轉儲到S3來運行流式作業,以及如果可以將其轉儲到一個「大」文件或者我應該將它分區爲幾個,那麼運行流作業。 我可以直接在DynamoDB上運行流式作業嗎?您的鏈接只討論Hive查詢。 – eran 2014-10-09 12:28:26