如何限制pyspark ressources

pyspark

2016-05-12 58 views 0 likes

我在我的本地機器上運行pyspark，我想限制我不使用的核心數量和使用的內存（我有8個核心和16GB內存）如何限制pyspark ressources

知道如何做到這一點，我試圖將這些行添加到我的代碼中，但是這個過程仍然很貪婪。

from pyspark import SparkContext, SparkConf 

conf = (SparkConf().setMaster("local[4]") 
    .set("spark.executor.cores", "4") 
    .set("spark.cores.max", "4") 
    .set('spark.executor.memory', '6g') 
) 

sc = SparkContext(conf=conf) 
rdd = sc.parallelize(input_data, numSlices=4) 

map_result = rdd.map(map_func) 
map_result.reduce(reduce_func)

爲什麼不應用conf？

來源

2016-05-12 Ghilas BELHADJ

回答

由於配置中的「優先」，這可能會發生。由於Spark允許不同的方式來設置配置參數。在我們可以看到的文檔中：

指定爲標誌或屬性文件中的任何值都將傳遞到應用程序並與通過SparkConf指定的值合併。直接在SparkConf上設置的屬性具有最高的優先級，然後將標誌傳遞給spark-submit或spark-shell，然後將其傳遞給spark-defaults.conf文件中的選項。自早期版本的Spark以來，一些配置鍵已被重命名;在這種情況下，舊鍵名仍然可以接受，但優先級低於新鍵的任何實例。

欲瞭解更多信息：Spark Documentation

所以我建議審查火花提交的參數和配置文件。

希望它有幫助。

來源

2016-07-13 19:36:46 Joss

相關問題

1. Ressources使用UML
2. 來自Ressources的.NET複製文件
3. 如何Pyspark
4. 如何讓PySpark
5. 如何從Pyspark
6. 如何pyspark
7. 如何限制
8. 速率限制如何限制API
9. 如何使用pyspark
10. 如何限制seekbar
11. 如何限制android
12. 如何限制Parallel.ForEach？
13. 如何限制JSpinner
14. 限制如何WPF
15. 如何限制UItextfield
16. 如何限制jFormattedTextField
17. 如何限制Pagewidth
18. 如何限制goroutine
19. 如何限制MonthCalender
20. 如何「限制50000,1」？
21. 獲取OutofMemoryError- GC開銷限制超過pyspark
22. 如何限制OAuth'scope'參數的允許權限（限制範圍）
23. Ressources的OSX，從-IOS開發人員
24. 從ressources設置背景：資源$ NotFoundException
25. Rails的路線改變與ressources
26. 如何在PySpark中裝箱？
27. PYSPARK：如何可視化GraphFrame？
28. 如何在anaconda導入pyspark
29. 如何限制OrbitControl - Three.js
30. 如何限制MemoryStream長度？