2011-01-31 160 views
2

我很感興趣 - 什麼可以被認爲是一個很好的吞吐量 爲每個節點的hadoop輕量級文本數據處理?
更具體地說,我會問: 讓我說我必須閱讀csv文件,解析它們並計算某些列中特定值的數量。讓我們假設值很少,所以減少步驟很快。
對於現代四核CPU/4 GB RAM/4 SATA磁盤機器的每個hadoop節點,我可以預期哪些吞吐量?Hadoop MapReduce吞吐量問題

+0

我認爲這是幾乎不可能的,因爲確切的實現,數據源和配置將對結果產生巨大影響。 – 2011-01-31 08:46:58

+1

我知道這不是確切的答案。但至少應該知道數量級(恕我直言)。對於基於RDBMS的解​​決方案,我可以採用TPCH Q1(例如)並查看throupput。我想了解 - 它是1 MB /秒,10 MB /秒,100或300 MB /秒。瞭解我何時計劃解決方案並知道客戶需要購買多少臺機器是非常重要的。 – 2011-01-31 08:50:22

回答

1

我覺得這個問題合理。我得到吞吐量的Hadoop集羣的印模與

(SizeOfInput + SizeOfOutput)/RuntimeInSeconds/NumberOfDisks 

對於上3800個節點與商品硬件上運行的yahoo PB-Sort(每節點2個磁盤),即簡單的表達式的計算結果爲:2.24 MB /(一個或多個和磁盤)。

對於IO綁定的作業(搜索DFSIO測試),您會發現大約有20 MB /(s和磁盤)的簇。

我認爲你現在不會在IO綁定作業中找到一個帶有商品硬件的hadoop集羣,它擁有大於20MB /(s和磁盤)。但我可能是錯的。