2015-08-03 60 views
3

我同意iterativeinteractive編程範例與map-reduce的spark比較好。我也同意我們可以使用HDFS或任何Hadoop數據存儲作爲Spark的存儲層。有沒有hadoop map-reduce比apache spark更好的用例?

因此,我的問題是 - 我們是否有現實世界中的任何用例,可以說hadoop MR在這些上下文中比apache更好。這裏「更好」用於performance, throughput, latency。 hadoop MR仍然是使用BATCH處理比使用spark更好的一個。

如果是這樣,任何人都可以告訴advantages of hadoop MR over apache spark?請保留關於COMPUTATION LAYER的全部討論範圍。

回答

0

正如你所說,在iterativeinteractive編程,火花比hadoop更好。但是spark對內存有很大的需求,如果內存不夠用,很容易拋出OOM異常,hadoop可以很好地處理這種情況,因爲hadoop有很好的容錯機制。其次,如果數據傾斜發生,spark也可能崩潰。我比較火花和hadoop對系統的魯棒性,因爲這將決定工作的成功。

最近我測試了spark和hadoop的性能使用了一些基準,根據結果,火花性能並不比hadoop更好, kmeans,pagerank。也許內存是火花的限制。

+0

感謝gwgyk快速回復。當你發現任何新的見解時,如果你能更新答案,那將是非常棒的。這可能有助於我們所有人獲得這種見解。 –

+0

你能解釋一下'Data Tilt'嗎?什麼是數據傾斜? –