0
我在我的本地機器上運行pyspark
,我想限制我不使用的核心數量和使用的內存(我有8個核心和16GB內存)如何限制pyspark ressources
知道如何做到這一點,我試圖將這些行添加到我的代碼中,但是這個過程仍然很貪婪。
from pyspark import SparkContext, SparkConf
conf = (SparkConf().setMaster("local[4]")
.set("spark.executor.cores", "4")
.set("spark.cores.max", "4")
.set('spark.executor.memory', '6g')
)
sc = SparkContext(conf=conf)
rdd = sc.parallelize(input_data, numSlices=4)
map_result = rdd.map(map_func)
map_result.reduce(reduce_func)
爲什麼不應用conf?