2010-08-05 68 views
0

loving MRToolkit - 在編寫Hadoop作業時很好地擺脫Java。顯而易見的是,該庫被編寫爲與EC2集羣接口,而不是與亞馬遜的彈性地圖/縮小系統相連。是否有人對使用彈性地圖/縮減服務器上的工具包定義的運行作業有所瞭解?從網絡界面看並不明顯,我很樂意避免在EC2上手動設置集羣的麻煩。在AWS彈性地圖上運行MRToolkit hadoop作業/ reduce

我已經研究了'streaming'選項下的更新文件(因爲這是MRToolkit使用的),但是Amazon期望映射器和簡化器的單獨文件 - 典型的MRToolkit樣式在單個文件中將它們定義爲子類預定義的Base(Map | Reduce)類。

非常感謝您的任何想法。

艾薩克

回答

1

這是可行的,但不是通過Web GUI。

  • 下載並安裝Ruby Client
  • 創建羣集:彈性MapReduce的--create --alive [PARAMS大小集羣]
  • 確認您的彈性的Map Reduce主安全組有22端口打開
  • SSH到你的主節點
  • 使用git/scp將在你的應用程序代碼複製
  • 運行你的應用程序
+0

Ryan, 感謝您的指點。我注意到EMR可以讓你在S3上指定輸入和輸出桶/目錄 - 你知道是否有一種方法可以利用MRToolkit的功能,而不是手動複製它(像s3cmd)? 再次,非常感謝。 Isaac – isparling 2010-08-07 00:34:45

+0

只需使用以下語法:s3n:// my-input-bucket/prod/logs ... Hadoop可以應對s3協議並直接從s3中獲取數據。 – 2010-08-07 01:16:12

相關問題