0
loving MRToolkit - 在編寫Hadoop作業時很好地擺脫Java。顯而易見的是,該庫被編寫爲與EC2集羣接口,而不是與亞馬遜的彈性地圖/縮小系統相連。是否有人對使用彈性地圖/縮減服務器上的工具包定義的運行作業有所瞭解?從網絡界面看並不明顯,我很樂意避免在EC2上手動設置集羣的麻煩。在AWS彈性地圖上運行MRToolkit hadoop作業/ reduce
我已經研究了'streaming'選項下的更新文件(因爲這是MRToolkit使用的),但是Amazon期望映射器和簡化器的單獨文件 - 典型的MRToolkit樣式在單個文件中將它們定義爲子類預定義的Base(Map | Reduce)類。
非常感謝您的任何想法。
艾薩克
Ryan, 感謝您的指點。我注意到EMR可以讓你在S3上指定輸入和輸出桶/目錄 - 你知道是否有一種方法可以利用MRToolkit的功能,而不是手動複製它(像s3cmd)? 再次,非常感謝。 Isaac – isparling 2010-08-07 00:34:45
只需使用以下語法:s3n:// my-input-bucket/prod/logs ... Hadoop可以應對s3協議並直接從s3中獲取數據。 – 2010-08-07 01:16:12