您是否可以通過Spark工作直接讀取/寫入硬盤？

是否需要將火花作業的輸出寫入hdfs並從那裏下載。或者可以直接寫入本地文件系統。您是否可以通過Spark工作直接讀取/寫入硬盤？

2017-10-17 Aditya

基本上，不，您不能使用spark的本地寫入API（例如df.write.parquet）寫入本地文件系統文件。當以本地火花模式運行時（在您自己的計算機上，而不是集羣中），您將從本地文件系統讀取/寫入數據。但是，在集羣設置（standalone/YARN/etc）中，由於分區通常包含在單獨的節點上，因此寫入HDFS是唯一合乎邏輯的方法。

寫入HDFS固有分佈，而寫本地文件系統將涉及的2個問題中的至少1：

1）寫入到節點本地文件系統將意味着1個節點上的所有不同的節點文件（5個文件，7個文件上的另一等）

2）寫入驅動器的文件系統將需要發送的所有執行者結果司機類似於運行collect

可以使用傳統的我對司機本地文件系統寫/ O操作內置Python或Scala等語言。

相關SOS：

How to write to CSV in Spark

Save a spark RDD to the local file system using Java

Spark (Scala) Writing (and reading) to local file system from driver

來源

2017-10-17 17:18:16 Garren

您是否可以通過Spark工作直接讀取/寫入硬盤？

回答

相關問題