我需要從多個不是父目錄或子目錄的路徑讀取實木複合地板文件。從Pyspark中的多個目錄讀取實木複合地板文件
例如,
dir1 ---
|
------- dir1_1
|
------- dir1_2
dir2 ---
|
------- dir2_1
|
------- dir2_2
sqlContext.read.parquet(dir1)
從dir1_1地板讀取文件和dir1_2
現在我在讀每個目錄和合並使用 「unionAll」 dataframes。 有沒有一種方法來讀取dir1_2和dir2_1拼花文件,而不使用unionAll
或有使用unionAll
感謝
當我使用這段代碼時,它正在搜索/ home /目錄中的目錄,你可以發佈整個語法嗎? – Viv
@N00b當我嘗試這段代碼時,它給了我一個錯誤,即加載只需要4個參數,但我有我的路徑到24個文件..是否有一個選項可以覆蓋此。我正在嘗試不執行多個加載和一個聯合,這就是爲什麼我想使用加載將多個文件放入df –