0
我正在編寫一個Spark應用程序,將日誌數據保存到目錄/logroot
。Spark避免分區覆蓋
我的代碼是
myDF.mode('overwrite').partitionBy('date','site').save('logroot')
我想用overwrite
模式,以重新處理很多次,每週所有的日常數據。
我擔心的是overwrite
會清除所有logroot
目錄,而不僅僅是涉及的分區。
我該如何解決這個問題?
您可以使用追加模式並避免重寫。但你可以更詳細說明,你的要求是什麼 – Ramzy
嗨,我已經嘗試過追加模式,問題是,如果出於任何原因,我需要重新處理已存在數據的一天(日期+網站分區)數據總和而不是覆蓋。 –
你可以請更詳細一點。你想重新處理輸出數據嗎? – Ramzy