2017-06-05 31 views
2

我使用Spark 1.6.1。每種格式的書寫或閱讀選項的參考在哪裏?

我們正在嘗試使用HiveContext和DataFrameWriter將ORC文件寫入HDFS。雖然我們可以用

df.write().orc(<path>) 

我們寧願做這樣的事情

df.write().options(Map("format" -> "orc", "path" -> "/some_path") 

這使我們可以靈活地改變取決於使用該助手庫的應用程序的格式或根路徑。我們可以在哪裏找到可以傳遞給DataFrameWriter的選項的引用?我什麼也沒有發現在這裏的文檔

https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/DataFrameWriter.html#options(java.util.Map)

回答

3

我們在哪裏可以找到可以傳遞到DataFrameWriter選項的參考?

最明確和權威的答案是sources

有些描述可能會在文檔發現,但沒有一個單一頁面(也可能會被自動生成從源熬夜到最新最) 。

原因是,該選項是從目的格式實現分離有你想要每次使用的情況下提供(如你充分注意到)靈活性:

這是爲了讓我們有靈活性根據使用此幫助程序庫的應用程序更改格式或根路徑。在這裏我說


你的問題似乎類似於How to know the file formats supported by Databricks?

我在哪裏可以得到支持的每個文件格式的選項列表?

也因爲有沒有 API遵循(如在星火MLlib)來定義的選項是不可能的。每種格式都是自己做的......不幸的是,最好的選擇是閱讀文檔或(更權威的)源代碼。