6
A
回答
4
Spark將shuffle操作中的中間數據存儲在磁盤的「底層」優化中。當spark需要重新計算RDD圖的一部分時,如果RDD已經存在,那麼它可能會截斷RDD圖的沿襲,這是早期洗牌的副作用。即使RDD未被緩存或顯式持久,也可能發生這種情況。
這個答案的來源是O'Reilly書籍Karau,Konwinski,Wendell的Learning Spark & Zaharia。第8章:調試和調試Spark。部分:執行組件:作業,任務和階段。
相關問題
- 1. 將數據添加到存儲在磁盤上的Spark/Parquet數據
- 2. Apache Cassandra磁盤上的數據存儲
- 3. 如何估算Spark Shuffle所需的內存和磁盤?
- 4. Spark緩存:緩存爲100%,而磁盤上的大小不爲零,爲什麼?
- 5. MongoDB數據庫中的數據如何存儲在磁盤上?
- 6. InnoDB沒有在磁盤上存儲什麼值?
- 7. Java Script對象存儲在磁盤上的位置是什麼?
- 8. 在磁盤或MongoDB上存儲文件
- 9. 將會話存儲在磁盤上
- 10. Django:在磁盤上存儲InMemoryUploadedFile
- 11. RavenDB磁盤存儲
- 12. RDFlib'磁盤'存儲
- 13. 如何將JSON數據存儲在磁盤上?
- 14. 數據庫記錄如何存儲在磁盤上?
- 15. 將未使用的類數據成員存儲在磁盤上
- 16. MongoDB - 在磁盤上存儲SSD和數據收集索引?
- 17. 數據如何存儲在磁盤上? - EFI GUID
- 18. 爲什麼jvm重啓後ehcache磁盤存儲失效?
- 19. 在Java中將對象存儲在磁盤上的最佳方式是什麼?
- 20. SQL Server 2014如何使用磁盤空間來存儲數據
- 21. 存儲空數據時是否消耗磁盤空間?
- 22. spark-mapwithstate爲什麼存儲空間的數量仍然是20?
- 23. 磁盤上的數據庫存儲,最佳實踐
- 24. 磁盤上的JackRabbit存儲庫
- 25. 當redis中的內存已滿時,爲什麼數據沒有在磁盤上持續存在?
- 26. 什麼是可以存儲在使用inode和磁盤塊的磁盤上的最大文件大小
- 27. 可用磁盤空間是否存儲在sql server(2000)master數據庫中?
- 28. 爲什麼在使用saveAsTextFile時,在Google Dataproc中運行的Spark將臨時文件存儲在外部存儲(GCS)而不是本地磁盤或HDFS上?
- 29. spark的shuffle讀和shuffle寫有什麼區別?
- 30. Spark DF CacheTable方法。它會將數據保存到磁盤嗎?
您可以將「spark.shuffle.spill」設置爲false以將中間數據寫入內存。 – Amos 2014-12-26 03:45:20
爲什麼這不是默認選項? – 2014-12-26 03:47:30