2012-04-24 92 views
0

我已經配置了4000張地圖的地圖容量,並根據我對FIFO模式的理解和鏈接 Running jobs parallely in hadoop 配置了500個地圖,如果我提交了8個作業,這8個作業應該並行運行,對不對?但是,我仍然看到我提交的8個職位順序運行,這讓我感到很奇怪。 另一種方法是嘗試公平的調度程序,但我有其他一些正在運行的錯誤... 如何使這個並行運行?hadoop FIFO調度不會使提交的作業並行運行?

我現在是唯一的用戶。

問題:作業跟蹤器Web UI顯示的總運行作業是什麼?

其實我已經提交了像80個工作崗位,使所有作業都成功提交,因爲我可以看到他們 的80下的「正在運行的任務」部分,但他們只是順序運行

問題:有多少輸入文件你正在處理?這與這個工作中的繪圖員數量有什麼關係?

由於對於每個作業,我通過mapred-site.xml設置map.task.num = 500來配置500個地圖。

下面

是信息

類%完成貨號任務待定運行完全殺死失敗/終止任務嘗試

地圖1.40%500 402 91 7 0 0/0

減少0.00%1 1 0 0 0 0/0

問題:您可以將輸入格式配置爲只運行500個地圖,但有些情況下Hadoop會忽略此值:如果您有更多然後輸入500個文件,例如。

我相信這不會發生,因爲我定製了inputformat,使映射器運行的數字恰好映射器我mapred-site.xml中配置

問題數:當你開始你的工作,你有多少文件運行,什麼是你使用的輸入格式,以及如果在輸入文件上使用任何文件壓縮會怎麼樣

好吧,我實際上只運行一個文件,但此文件將被完全加載到所有的maptasks中,所以我實際上使用distrbutecache機制來讓每個maptask完全加載這個文件。我目前沒有使用壓縮功能

問題:作業跟蹤器顯示的配置的mapper和reducer插槽總數是多少?這是否與您的期望值5000相符?

下面是信息

地圖降低TotalSubmissions節點地圖任務能力降低工作能力的魅力。任務/節點列入黑名單的節點

83 0 80 8 4000 80 510。00 0

+0

你能確認你所使用的調度器(打開一個運行/運行作業,並檢查'mapred.jobtracker.taskScheduler'的job.xml配置屬性) – 2012-04-24 23:45:21

回答

0

無論您運行FairScheduler或CapacityScheduler,你仍然應該能夠並行運行的作業,但也有一些原因,你可能會看到你的作業順序運行:

  • 你是隻有使用羣集的人,如果沒有,有多少人正在使用它:
    • 問題:作業跟蹤器Web UI顯示的總運行作業是什麼?
  • 如果您確實是在特定時間點在集羣上運行的唯一作業,請檢查Job Tracker Web UI以獲取當前正在運行的作業 - 您當前正在處理多少個輸入文件?這與這個工作中的繪圖員數量有什麼關係?
    • 您可以將輸入格式配置爲僅運行500個地圖,但有時候Hadoop會忽略此值:例如,如果您有超過500個輸入文件。
    • 問題:當你有多少個文件,你運行在開始你的工作,什麼是您所使用的輸入格式,如果有任何文件壓縮您正在使用的輸入文件
  • 問題是什麼:作業跟蹤器顯示的配置的mapper和reducer插槽總數是多少?這是否與您的期望值5000相符?
+0

請我編輯的信息非常感謝 – user974270 2012-04-24 11:19:43