2017-08-02 52 views
0

在下面的代碼中,我無法將數據框寫入現有目錄,它只是從spark提交作業退出。是否有一種方法可以將它寫入其他目錄比創建一個新的目錄?使用分區寫入現有目錄DataframeBy

這裏測試是一個數據幀

test.repartition(100).write.partitionBy("date").parquet(hdfslocation)

回答

1

你總是可以編寫現有的目錄,如果文件名是在每個寫不同。您應該找到一種機制來更改輸出文件的名稱。

如果你想Overwrite現有文件中已有的目錄,那麼你並不需要更改文件名,而只是使用mode選項,

test.repartition(100).write.mode(SaveMode.Overwrite).partitionBy("date").parquet(hdfslocation) 

還有其他的模式選項,你可以玩:Append, ErrorIfExists, Ignore, valueOf, values

+0

謝謝你,那工作 – Babu