2017-04-07 215 views
5

我想了解從Hive表中刪除重複記錄。如何從Hive表中刪除重複的記錄?

我的蜂巢表:「dynpart」的列:ID,名稱,技術

Id Name Technology 
1 Abcd Hadoop 
2 Efgh Java 
3 Ijkl MainFrames 
2 Efgh Java 

我們有一個像「獨特」的選擇查詢使用,但選擇查詢只是從表中檢索數據的選項。任何人都可以告訴如何使用刪除查詢從Hive表中刪除重複的行。

確定不推薦或不是標準來刪除/更新Hive中的記錄。但我想知道我們該怎麼做。

回答

14

您可以使用插入覆蓋語句來更新數據

insert overwrite table dynpart select distinct * from dynpart; 
+0

有什麼其他方法可以讓我們不必刪除整個表並刪除記錄 – salmanbw

3

可以插入不同的記錄到一些其他的表

create table temp as select distinct * from dynpart 
+1

或沒有新表:'插入覆蓋表dynpart選擇不同*從dynpart ' – fi11er

+0

@ fi11er,你的答案正在工作。如果您可以將您的評論置於答案中,我會接受它。 – Sidhartha

+0

@Sidhartha,done – fi11er