2013-03-13 62 views
0

我是hadoop的新手。 我想檢查一下我是否在研究和質疑假設。當MR運行時hadoop地圖分開

這是這個想法。 例如,hadoop中的5個節點,1應該是主節點。 每個從節點都有1個MR任務。 - 在conf/mapred-site.xml中配置。

這是我研究過我運行過hadoop的例子。 MR是自動決定字數的地圖任務編號。

Q1。它是否與塊大小選項或其他東西連接?

它可以通過屬性進行更改。當我運行PI和隨機文本編寫器時,它發生了變化。第二季度銷售價格指數爲:

Q2。是否有可能改變任何其他的MR程序?我的意思是,在字數統計中,屬性會影響地圖任務的編號。

這是另一個想法。 在這種情況下,我得到了4個奴隸,2個地圖任務。這意味着,它可以一次運行2個節點。

這只是假設。 JT製作2個地圖任務,估計時間超過1小時。 這對性能沒有好處。 2個節點沒有運行。如果使用4個節點進行映射,則速度可能更快。我想在作業運行時分離現有的地圖。

Q3。這種假設的可能性。如果可以的話,讓我知道如何獲得參考。

我在等你的建議。

謝謝大家。

+0

看看這個: http://yaseminavcular.blogspot.com/2011/06/how-to-set-number-of-maps-with-hadoop.html – Alper 2013-03-13 11:47:31

回答

0

對於你的第一個問題,它與你擁有的塊大小和文件數有關,例如,你有3,7GB的數據,你有512MB的數據大小,它爲此創建了8個地圖任務。此外,它與您的輸入目錄中的文件編號直接相關。對於目錄中的每個文件,至少創建一個地圖任務。你也可以通過編程來增加(是的,這意味着你不能減少)地圖任務。

-1

感謝您的答案。

首先,我沒有想到文件的數量。實際上,當MR在JVM中運行時,我對分割地圖感到好奇。我試圖找到一些信息,這是沒用的。

現在好了,我知道hadoop配置的重要性,特別是mapred-site.xml對於MR,我要研究更多關於配置。

再次感謝你。

相關問題