2010-04-18 118 views
2

說明使用迭代MapReduce的並行計算可以證明主要是當訓練數據大小對於同一邏輯的非並行計算太大時是否正確?Hadoop:迭代MapReduce性能

我知道啓動MapReduce作業會有開銷。 當需要大量迭代時,這對於總體執行時間可能很關鍵。

我可以想象,只要內存在許多情況下允許存儲數據集,那麼順序計算比使用迭代MapReduce的並行計算更快。

回答

1

沒有並行處理系統,如果一臺機器在大多數情況下都能完成這項工作,這將非常有意義。與大多數並行任務相關的複雜性非常重要,需要充分利用它。

即使很明顯如果在可接受的時間內沒有並行處理任務就無法解決,那麼並行執行框架會有不同的風格:從更低層次的科學工具,如PVM or MPI到高級的專業化(如map/reduce)框架(如Hadoop)。

您應該考慮的參數之一是開始時間和可伸縮性(系統縮放的線性程度有多接近)。如果您需要快速找到答案,Hadoop將不是一個好選擇,但如果您可以將您的過程納入地圖縮小框架中,Hadoop可能是一個不錯的選擇。

0

您可能會參考項目HaLoop(http://code.google.com/p/haloop),其中正好解決了這個問題。

+3

@anuj在各種編輯中,您似乎沒有理由大膽進行編輯。鏈接是好的,但只要給項目的正確大寫拼寫,你很好去。 – Bart 2012-12-13 14:38:27

+0

再次爲此。 – 2012-12-13 14:40:45

+0

@anujarora感謝您的編輯 – Khalefa 2012-12-19 14:42:41