2013-04-05 57 views
2

我讀過一些文章,指出Hadoop只能真正設計爲在單一物理位置的羣集上工作,而不是用於許多廣泛分佈的節點(例如,通過互聯網從多個站點運行分佈式羣集)。Hadoop不適合跨多個站點的分佈式處理?

有沒有人有嘗試跨多個站點使用Hadoop的實際經驗?我會遇到什麼樣的問題?或者我最好只用一個不同的框架(例如BOINC)。

回答

3

如果在一組相對本地節點上執行而不是在一組廣泛分佈的節點上執行任何差異,那麼在節點之間來回移動大量數據所需的時間會更長。如果您遇到涉及處理,彙總和加入大量數據的問題,那麼您必須在節點之間發送大量數據。這意味着無論您選擇何種平臺(hadoop,風暴等),您都必須處理這個問題。 BOINC或其他一些基於志願者的系統可能會更便宜,但是您的實施仍將受到高數據傳輸成本的打擊。此外,您可能會將節點異質性引入混合中,這將使您的實現更加有趣開發和調試。

順便說一句,hadoop和BOINC是解決非常不同的問題的兩個非常不同的動物。

+0

有關異構機器上Hadoop問題的好處 - 我會做更多的研究。 WRT你關於數據傳輸的觀點是位於同一地點的集羣和分佈式集羣之間的關鍵區別,我知道情況總是如此。我想我的根本問題是Hadoop是否比其他分佈式平臺差這麼多? (即它是否有非常健談的數據分發內部協議等?)。 – 2013-04-05 18:13:48

+0

協議是否很健談?我不知道,但是如果任何使用頻繁的開源平臺過於喋喋不休,我會感到驚訝。 – 2013-04-05 18:38:57

+1

如果沒有這個問題的定義答案,你可能想看看[比較這裏](http://www.jppf.org/forums/index.php?topic=790.0),與另一個網格計算平臺。除了結果之外,我相信所提出的問題以及用於回答這些問題的方法非常有見地 – Lolo 2013-04-06 10:26:28