2016-11-18 185 views
2

我正在使用dropDuplicates方法刪除數據框中列A和B的重複條目。而我救了我的數據框導致空SQL表與A列主鍵和B.有時新的數據框對列中的重複值和BSpark 1.6.2:DropDuplicates給出意想不到的結果

newdf = df.dropDuplicates(Seq("A", "B")) 
newdf.write.mode("append").jdbc(url,table,prop) 

所以當插入我得到的表java.sql.BatchUpdateException:重複錄入異常

是不是下降有望消除對列A和B的所有重複條目重複我如何使用在嘗試捕捉批量操作,如果再一個批次操作失敗其他批次操作不會失敗整個工作。

回答

1

dropDuplicates刪除當前數據集中的重複項,但使用append寫入模式。不能保證數據集不包含已經在表中的數據的重複。

+0

我正在將當前數據集附加到空表中。我使用append作爲writer模式,將數據追加到一個空表中,其中已經創建了所有的索引。 –

相關問題