2012-02-13 41 views
1

我想弄清楚如何直接從EMR map任務寫入s3存儲桶。我想運行一個python串流作業,它可以從互聯網獲取一些數據並將其保存到s3 - 而不用返回來減少作業。任何人都可以幫助我嗎?直接從EMR map/reduce任務訪問S3

回答

0

你爲什麼不只是設置你的MR作業的輸出是一個S3目錄,並告訴它沒有減速:

./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE 

這應該做你想要什麼。

然後你的腳本可以做這樣的事情(不好意思,紅寶石):

STDIN.each do |url| 
    puts extract_data(url) 
end