2017-07-07 59 views
2

我正在開發一個項目,我必須調整spark的性能。我發現了四個最重要的參數,這將有助於調整火花的性能。它們分別是:Apache Spark的性能調優

  1. spark.memory.fraction
  2. spark.memory.offHeap.size
  3. spark.storage.memoryFraction
  4. spark.shuffle.memoryFraction

我想知道我是否朝着正確的方向前進?如果我錯過了其他一些參數,請讓我知道 。

在此先感謝。

回答

0

是的,你似乎是在正確的軌道上。實際上有更多的配置參數可以用來微調火花的性能。正如你所說,需要平衡四個資源以便微調1)執行程序,2)內核,3)內存和4)數據分區。它以不同的方式說同一件事。

可以在Tuning SparkCloudera tuning SparkIBM tuning Spark

找到更多的信息,我希望答案是有幫助的。

1

這是相當寬泛的回答誠實。優化性能的正確途徑主要在關於Tuning Spark的部分的官方文檔中有所描述。

一般來說,有很多因素,優化火花的作業:

  • 數據序列化
  • 內存優化並行的
  • 水平reduce任務的
  • 內存使用
  • 廣播大變數
  • 數據局部性

它主要是集中圍繞數據序列化,存儲優化和精度/近似技術之間的權衡,把工作做得風生水起。

編輯:

的@ zero323禮貌:

我想指出的是,所有但在問題中提到一個選項,已被取消,只是在傳統模式下使用。

+1

我想指出的是,所有但在問題中提到一個選項,已被取消,只是在傳統模式下使用。 – zero323

+0

謝謝@ zero323! – eliasah