是否需要將火花作業的輸出寫入hdfs並從那裏下載。或者可以直接寫入本地文件系統。您是否可以通過Spark工作直接讀取/寫入硬盤?
1
A
回答
1
基本上,不,您不能使用spark的本地寫入API(例如df.write.parquet
)寫入本地文件系統文件。當以本地火花模式運行時(在您自己的計算機上,而不是集羣中),您將從本地文件系統讀取/寫入數據。但是,在集羣設置(standalone/YARN/etc)中,由於分區通常包含在單獨的節點上,因此寫入HDFS是唯一合乎邏輯的方法。
寫入HDFS固有分佈,而寫本地文件系統將涉及的2個問題中的至少1:
1)寫入到節點本地文件系統將意味着1個節點上的所有不同的節點文件(5個文件,7個文件上的另一等)
2)寫入驅動器的文件系統將需要發送的所有執行者結果司機類似於運行collect
可以使用傳統的我對司機本地文件系統寫/ O操作內置Python或Scala等語言。
相關SOS:
Save a spark RDD to the local file system using Java
Spark (Scala) Writing (and reading) to local file system from driver
相關問題
- 1. 是否可以通過CFStream讀取/寫入設備?
- 2. 是否有可能在ASP.NET中直接寫入/讀取TCP流?
- 3. 直接在win32api中讀取和寫入硬盤,如biosdisk或ms-dos中的absread
- 4. Java直接從鍵盤讀取輸入
- 5. 直接讀取blob zip文件而不寫入磁盤
- 6. Spark可以直接將數據讀入嵌套的case類嗎?
- 7. 是否可以通過LinkedIn API接收工作申請?
- 8. 如何檢測硬盤是否通過USB連接?
- 9. 當您通過屬性將文件設置爲只讀時,您的程序是否可以直接寫入該文件?
- 10. 是否可以通過EMR(通過VPC)看到Spark UI?
- 11. 直接訪問硬盤?
- 12. 直接訪問硬盤
- 13. 從Spark工作人員讀取和寫入Cassandra拋出錯誤
- 14. 是否可以通過編碼重命名Google雲端硬盤文件?
- 15. 是否可以通過電報聊天直接發送到telegra.ph?
- 16. 讀取/寫入C盤?
- 17. 視覺工作室直接讀取外部鍵盤,而不是通過lua腳本映射器
- 18. iTextSharp從硬盤讀取pdf模板並寫入文本
- 19. 如何在Firefox中讀取/寫入硬盤中的文件?
- 20. Windows存儲將數據量讀取寫入硬盤驅動器
- 21. 如何使用Firefox插件從硬盤讀取/寫入文件?
- 22. 爲硬盤讀取和寫入創建事件
- 23. 是否可以使用JAVA從文件中讀取/寫入位?
- 24. 檢查是否每個人都可以讀取/寫入目錄
- 25. 從硬盤快速讀取
- 26. 是否可以通過網絡讀取mp4的特定部分?
- 27. Spark在寫入時是否可以使用SQL數據庫?
- 28. 谷歌硬盤直接鏈接
- 29. 是否可以通過讀取執行殼注入和/或打破引號?
- 30. 是否可以通過編程方式啓用/禁用硬件?