Spark避免分區覆蓋

我正在編寫一個Spark應用程序，將日誌數據保存到目錄/logroot。Spark避免分區覆蓋

我的代碼是

myDF.mode('overwrite').partitionBy('date','site').save('logroot')

我想用overwrite模式，以重新處理很多次，每週所有的日常數據。

我擔心的是overwrite會清除所有logroot目錄，而不僅僅是涉及的分區。

我該如何解決這個問題？

2016-06-07 Roberto G.

您可以使用追加模式並避免重寫。但你可以更詳細說明，你的要求是什麼 – Ramzy

嗨，我已經嘗試過追加模式，問題是，如果出於任何原因，我需要重新處理已存在數據的一天（日期+網站分區）數據總和而不是覆蓋。 –

你可以請更詳細一點。你想重新處理輸出數據嗎？ – Ramzy

在撰寫的最佳解決方案目前看來：從最初的數據幀

感謝大家的幫助和希望星火傢伙將提供更優雅的解決方案選項。

Roberto

2016-07-14 09:45:49

回答