如何在不使用databricks csv api的情況下將CSV文件直接讀入spark數據框?
我知道有databricks csv api,但我不能使用它的api ..
我知道有案例類使用和映射cols根據cols(0)職位,但問題是我有超過22 coloumns因此我不能使用案例類,因爲在案例類中,我們限制只使用22種顏色。 我知道有structtype來定義模式,但我覺得這將是非常長的代碼來定義結構類型40 coloumns。 我正在尋找使用讀取方法讀入數據框的東西,但在火花中,我們沒有直接支持csv文件,我們需要解析它?但如果我們有超過40列的話?如何在不使用databricks csv api的情況下將CSV文件直接讀入spark數據框?
1
A
回答
0
我也研究過這個,並最終編寫了一個python腳本來爲解析(行)函數和模式的定義生成scala代碼。是的,這可能會變成一小塊代碼。
如果您的數據不是太大,您可能會走的另一條路徑:使用python熊貓! 啓動py-spark,將數據讀入熊貓數據框,然後從中創建一個spark數據框。保存它(例如作爲parquet文件)。並在scala-spark中加載該鑲木地板文件。
1
似乎scala 2.11.x起,arity limit issue已修復。請看看https://issues.scala-lang.org/browse/SI-7296
爲了克服這一點在< 2.11見my answer,它採用extends Product
和覆蓋方法productArity
,productElement
,canEqual (that:Any)
相關問題
- 1. 直接在Azure Datalake中將Python數據框寫入CSV文件
- 2. 如何將數據框保存到spark 1.6中的csv文件?
- 3. 如何將csv直接加載到Spark數據集中?
- 4. 將CSV數據讀入下標集
- 5. Python - 將數據框寫入csv文件
- 6. 從CSV文件創建Spark數據集
- 7. 在不知道結構的情況下將CSV讀取到數據表中
- 8. 將.csv文件讀入MATLAB
- 9. 如何在不使用databricks lib的情況下將列標題添加到Spark SQL查詢結果?
- 10. 將多個csv文件有效地讀入熊貓數據框
- 11. 使用Spark讀取CSV
- 12. 將csv文件讀入文本文件
- 13. Spark 2.1.0:讀取壓縮的csv文件
- 14. 我可以在不知道CSV列的情況下將CSV數據導入表格嗎?
- 15. Spark-SQL:如何將TSV或CSV文件讀入數據框並應用自定義模式?
- 16. 如何在不連接的情況下將多個csv加載到熊貓中?
- 17. 如何閱讀CSV數據文件?
- 18. 如何從csv文件讀取數據
- 19. 如何從csv文件讀取數據並將數據插入html文件
- 20. 如何在不使用javascript的情況下讀取excel文件
- 21. 如何使用pg-promise將數據下載爲CSV文件?
- 22. 直接下載一個csv文件而不寫入目錄
- 23. 使用spark中的其他csv文件更新csv文件
- 24. 導入CSV文件直接到MySQL
- 25. 如何使用python將數據寫入CSV文件?
- 26. 在iPhone上將CSV文件讀入sqlite3
- 27. 在不覆蓋第一行的情況下寫入.csv文件中的新行
- 28. 將Tableau csv導入Spark
- 29. 直接下載CSV文件到用戶下載文件夾
- 30. 如何在不使用「#TYPE」行的情況下使用PowerShell輸出CSV?
有什麼不對databricks CSV API? – Himaprasoon
@Himaprasoon,databricks csv api沒有錯。事實上,我必須寫一個認證hortonworks hdpcd火花,在考試中,他們不提供databricks api ..只是火花內置的API我們可以使用... –
是我的回答有用嗎?如果不是,如果還有其他東西,你會發現什麼? –