大規模Hadoop集羣的計算和存儲容量之間的典型關係是什麼？

我正在研究需要支持計算綁定深度分析以及I/O綁定大數據的大型集羣（10k核心）的維度，並且我想聽聽一些建立了大數據集羣的人員他們是什麼樣的用於計算計算量與本地磁盤存儲量。我假設一個直接連接的存儲架構，如在線MapReduced數據倉庫所倡導的那樣，我可以將大約每臺服務器大約2TB作爲直接連接的存儲設備（比如雙Xeon 5650），看看一些中等密度的刀片設備anno 2012，。這會給我每個2TB存儲100TFlops或5：1的比例。低密度設備可以低至1：1，高密度設備可高達10：1。大規模Hadoop集羣的計算和存儲容量之間的典型關係是什麼？

我很想聽聽其他大數據人員正在運行的比率。

來源

2012-01-01 Ravenwater

這裏有一些文章1 2 3開始用於Hadoop硬件大小。

來源

2012-01-02 01:47:25

第三篇文章有答案 – Ravenwater 2012-01-13 21:38:27

從普利文的埃裏克Baldeschwieler第三篇文章的日期爲2011年九月HortonWorks：

我們老問了很多關於如何選擇Hadoop的Apache的工作節點硬件的問題。在雅虎時代，我們購買了許多帶有6 * 2TB SATA驅動器，24GB RAM和8個內核的節點，並採用雙插槽配置。這已被證明是一個非常好的配置。今年，我看到帶有12 * 2TB SATA驅動器，48GB RAM和8個內核的系統採用雙插槽配置。今年我們將看到3TB硬盤的遷移。

什麼樣的配置是有道理的，任何給定的組織由這樣的比率爲不能在一個通用的方法來回答你的工作量和其他因素的存儲器 - 計算比來驅動。此外，硬件行業也在迅速發展。在這篇文章中我會盡力概括了普遍指導Hadoop的硬件配置選擇在過去六年的原則。所有這些想法都旨在設計大中型Apache Hadoop集羣。 Scott Carey有一天在Apache郵件列表中爲小型集羣提供了一個很好的例子。

來源

2012-01-13 21:40:45 Ravenwater

大規模Hadoop集羣的計算和存儲容量之間的典型關係是什麼？

回答

相關問題