Hadoop MapReduce吞吐量問題

2011-01-31 160 views 2 likes

我很感興趣 - 什麼可以被認爲是一個很好的吞吐量爲每個節點的hadoop輕量級文本數據處理？
更具體地說，我會問：讓我說我必須閱讀csv文件，解析它們並計算某些列中特定值的數量。讓我們假設值很少，所以減少步驟很快。
對於現代四核CPU/4 GB RAM/4 SATA磁盤機器的每個hadoop節點，我可以預期哪些吞吐量？Hadoop MapReduce吞吐量問題

來源

2011-01-31 David Gruzman

我認爲這是幾乎不可能的，因爲確切的實現，數據源和配置將對結果產生巨大影響。 – 2011-01-31 08:46:58

我知道這不是確切的答案。但至少應該知道數量級（恕我直言）。對於基於RDBMS的解決方案，我可以採用TPCH Q1（例如）並查看throupput。我想了解 - 它是1 MB /秒，10 MB /秒，100或300 MB /秒。瞭解我何時計劃解決方案並知道客戶需要購買多少臺機器是非常重要的。 – 2011-01-31 08:50:22

回答

我覺得這個問題合理。我得到吞吐量的Hadoop集羣的印模與

(SizeOfInput + SizeOfOutput)/RuntimeInSeconds/NumberOfDisks

對於上3800個節點與商品硬件上運行的yahoo PB-Sort（每節點2個磁盤），即簡單的表達式的計算結果爲：2.24 MB /（一個或多個和磁盤）。

對於IO綁定的作業（搜索DFSIO測試），您會發現大約有20 MB /（s和磁盤）的簇。

我認爲你現在不會在IO綁定作業中找到一個帶有商品硬件的hadoop集羣，它擁有大於20MB /（s和磁盤）。但我可能是錯的。

來源

2012-06-11 15:52:52 hoffmaje

相關問題

1. 如何計算吞吐量的Hadoop
2. PostgreSQL DELETE/INSERT吞吐量問題
3. 吞吐量測量
4. 計算吞吐量
5. 吞吐量措施
6. TCP吞吐量圖
7. JMeter的吞吐量控制器中的吞吐量影響
8. 如何計算INET的「吞吐量」示例中的吞吐量？
9. 測量datanode的吞吐量
10. Hadoop MapReduce，Java執行問題
11. 問：[Anylogic]測量生產吞吐率
12. 提高BOSH吞吐量
13. 什麼是JMeter吞吐量
14. Jmeter吞吐量的意義
15. DynamoDB吞吐量變化
16. kafka max吞吐量（MB /秒）
17. C＃UDPClient不良吞吐量
18. Jmeter的吞吐量計算
19. TCP vs UDP吞吐量
20. HAProxy遞減吞吐量
21. 低估DynamoDb吞吐量
22. NS3吞吐量計算
23. 用RxJava限制吞吐量
24. 吞吐量網絡估計
25. 如何測試HDFS I/O吞吐量
26. Java上傳吞吐量測量
27. 如何測量MQ的吞吐量
28. 衡量事務日誌吞吐量？
29. Jmeter示例增量與吞吐量
30. Hadoop Java MapReduce解析Jackson問題的JSON