我有一個5節點cluster.I使用pyspark將一個100k csv文件加載到數據幀並執行一些etl操作並將輸出寫入parquet文件。 當我加載數據框時,如何將數據集統一劃分到每個執行器處理20k記錄的所有執行者OS中。pyspark在所有執行者之間均勻分配負載
0
A
回答
0
如果可能,請確保將輸入數據拆分爲更小的文件。 這樣每個執行者將讀取和處理單個文件。
在,你不能修改輸入文件的情況下,你可以打電話df.repartition(5)
,但請記住,這將導致昂貴的整理操作
相關問題
- 1. pyspark不均勻地分配負載,增加雙倍尺寸的零件
- 2. Spark沒有將負載均勻分配到任務
- 3. 不均勻的CPU負載分佈
- 4. 按天分配行均勻
- 5. 均勻位置和均勻指數之間的區別?
- 6. 爲所有進程均勻分配值的算法
- 7. Hadoop:如何將任務均勻分配給所有節點
- 8. 浮動div之間的均勻間距
- 9. Higcharts蜱之間不均勻的空間
- 10. 清漆client.identity - 如何更均勻地分割負載?
- 11. 在水平線上均勻分配div
- 12. 在最小值和最大值之間均勻分配y軸刻度
- 13. 在2個收件人之間均勻分割表格結果
- 14. 在TensorFlow中GPU之間均勻分割RNN內存消耗
- 15. Bootstrap 4在容器中均勻分配空間按鈕
- 16. 均勻分配空間li使用百分比
- 17. 在div內均勻分隔行
- 18. Flex的空間之間 - 均勻地分佈在多個線路分佈
- 19. PRNG均勻分佈
- 20. 分配負載
- 21. CFUUIDCreate是否均勻分佈在所有位中?
- 22. 消費羣體負載均衡讀者
- 23. 當存在換行符時,均勻分佈空間文本
- 24. 劃分表元素之間的寬度均勻
- 25. 將非均勻分佈轉化爲均勻分佈
- 26. 均勻隨機數在所有相同的運行
- 27. 如何在ConstraintLayout中的TextView之間獲得均勻的間距?
- 28. Python pandas在所有重複的ID中均勻地分割行值
- 29. 不均勻的字符行拆分
- 30. 負載均衡
你可以用'重新分區(5)'。 – philantrovert