2011-12-13 149 views
4

我必須在Amazon EC2羣集上運行hadoop mapreduce作業。在Amazon EC2上運行hadoop作業:多節點羣集

我試着用現有的AMI進行設置。但是啓動主服務器和客戶端後,「jps」不會列出任何節點。

即使在使用公共hadoop AMI後,我們是否必須爲主人和奴隸做hadoop設置?主人將如何知道奴隸的IP地址?

任何人都可以請直接給我一些很好的文件。 我在這個問題上敲了12個多小時。

任何人都可以請幫忙嗎?

謝謝。

回答

1

我會使用亞馬遜的Elastic MapReduce框架來代替。您可以動態旋轉機器上下的機器,並且您不必擔心配置它們彼此交談。

http://aws.amazon.com/elasticmapreduce/

它使用的很多人,這是大多可靠。它將爲您節省通常用於設置和管理羣集的絕對TON工作量。只有一件事與常規hadoop不同 - 最好是將事物放入S3而不是HDFS(因爲羣集是瞬態的,所以HDFS數據隨羣集一起消失)。

+0

很好的答案。應該注意的是,彈性MR比在ec2集羣上設置自己稍微貴一點,如果集羣足夠大,這可能會加起來。 – Lostsoul

+2

只有在不使用spot-instances的情況下才會這樣。專業提示:使您節點的1/2節點定價TASK節點,您將節省大量資金。 –

+0

ahhh我從來不知道那..感謝馬修。你救了我一些錢! – Lostsoul

2

Matthew建議的另一種替代方法是使用Whirr。

Whirr使在Amazon上部署Hadoop集羣變得非常簡單,而且您不必爲mapreduce instaces付費。你可以控制集羣的版本。

這裏的項目主頁: http://whirr.apache.org/

下面是安裝Hadoop的快速入門指南。運行Hadoop集羣需要5分鐘的時間。 http://whirr.apache.org/docs/0.6.0/quick-start-guide.html

+1

良好的聯繫。在過去的12個月裏,Whirr已經變成了一個可行的選擇。 –

相關問題