2013-02-11 48 views
6

有沒有人試圖測試跨多個數據中心的數據節點的性能?特別是在有小管道的網絡上。我似乎無法找到太多的信息,我發現的信息要麼是舊的(大約2010年),要麼是專有的(就像DataStax有些東西)。我知道Hadoop支持機架感知,但就像我說過的我沒有看到任何有關爲多個數據中心調整系統的文檔。分佈在多個數據中心的數據節點

回答

5

我已經嘗試了12 x DataNode集羣以2:1的比例排列,兩個數據中心之間相距約120英里。在2個1GbE管道中,數據中心之間的延遲時間爲4ms。

在現場A配置2個機架,在現場B配置1個機架。每個「機架」有4個機器。我們基本上是將網站B作爲「DR」網站進行測試。複製因子設爲3.

長話短說,它的工作原理,但表現真的很糟糕。您必須在源代碼上使用壓縮,映射並減少輸出以縮小寫入I/O,並且如果站點之間的鏈接用於其他任何內容,則在傳輸數據時將會超時。 TCP窗口將有效地將我們的傳輸限制在4MBps左右,而不是1GbE產品線上潛在的100MBps +。

節省您的頭痛,只需使用distcp作業來複制數據!