我正在開發一個項目,我必須調整spark的性能。我發現了四個最重要的參數,這將有助於調整火花的性能。它們分別是:Apache Spark的性能調優
- spark.memory.fraction
- spark.memory.offHeap.size
- spark.storage.memoryFraction
- spark.shuffle.memoryFraction
我想知道我是否朝着正確的方向前進?如果我錯過了其他一些參數,請讓我知道 。
在此先感謝。
我正在開發一個項目,我必須調整spark的性能。我發現了四個最重要的參數,這將有助於調整火花的性能。它們分別是:Apache Spark的性能調優
我想知道我是否朝着正確的方向前進?如果我錯過了其他一些參數,請讓我知道 。
在此先感謝。
是的,你似乎是在正確的軌道上。實際上有更多的配置參數可以用來微調火花的性能。正如你所說,需要平衡四個資源以便微調1)執行程序,2)內核,3)內存和4)數據分區。它以不同的方式說同一件事。
可以在Tuning Spark和Cloudera tuning Spark和IBM tuning Spark
找到更多的信息,我希望答案是有幫助的。
這是相當寬泛的回答誠實。優化性能的正確途徑主要在關於Tuning Spark的部分的官方文檔中有所描述。
一般來說,有很多因素,優化火花的作業:
它主要是集中圍繞數據序列化,存儲優化和精度/近似技術之間的權衡,把工作做得風生水起。
編輯:
的@ zero323禮貌:
我想指出的是,所有但在問題中提到一個選項,已被取消,只是在傳統模式下使用。
我想指出的是,所有但在問題中提到一個選項,已被取消,只是在傳統模式下使用。 – zero323
謝謝@ zero323! – eliasah