2016-06-07 93 views
0

我正在編寫一個Spark應用程序,將日誌數據保存到目錄/logrootSpark避免分區覆蓋

我的代碼是

myDF.mode('overwrite').partitionBy('date','site').save('logroot') 

我想用overwrite模式,以重新處理很多次,每週所有的日常數據。

我擔心的是overwrite會清除所有logroot目錄,而不僅僅是涉及的分區。

我該如何解決這個問題?

+0

您可以使用追加模式並避免重寫。但你可以更詳細說明,你的要求是什麼 – Ramzy

+0

嗨,我已經嘗試過追加模式,問題是,如果出於任何原因,我需要重新處理已存在數據的一天(日期+網站分區)數據總和而不是覆蓋。 –

+0

你可以請更詳細一點。你想重新處理輸出數據嗎? – Ramzy

回答

0

在撰寫的最佳解決方案目前看來:從最初的數據幀

  • 提取物,應進行清洗
  • 清潔這些使用
  • 保存數據框使用append mode Hadoop的FS API分區的分區名稱

感謝大家的幫助和希望星火傢伙將提供更優雅的解決方案選項。

Roberto