我有一個5節點Hadoop集羣,其中2個節點專用於數據節點並且還運行tasktracker。如何強制hadoop運行超過1個減少作業
我跑我的Hadoop的工作等
sudo -u hdfs hadoop jar /tmp/MyHadoopJob2.jar com.abhi.MyHadoopJob2 -D mapred.reduce.tasks=2 /sample/cite75_99.txt /output3
工作運行成功,我可以看到正確的輸出...但現在當我去到門戶
我可以見
所以只有1個減少工作正在運行。
有關運行多個精簡工作是我想確認是否Hadoop的仍將創建即使減少工作崗位的不同實例進行了不同的機器上運行的完全排序輸出文件,我很特別的原因嗎?
當前我的輸出文件已完全排序,但這是因爲只有1個reducer作業正在運行。
你會得到兩個文件有兩個減速器,沒有之一。 – climbage 2014-08-30 05:25:01
啊。所以這不會造成惡魔和深海問題。如果我們有1個reducer,如果輸入太大,它會崩潰。但如果我們有多個減速器,那麼我們不會得到單個輸出? – 2014-08-30 06:23:20
對。多個輸出,因爲兩臺機器當前無法寫入相同的文件co。連接文件後,您仍然可以實現單個排序文件。 – climbage 2014-08-30 06:41:22