我有一個巨大的表,重複500 GB和分區,有近20億條記錄。使用行ID導出唯一行
我打算寫一個條件,如果3列值匹配,然後選擇這些記錄,(說我們有4個重複的記錄)。並採用最小/最大行號記錄導出其中一條記錄。
我知道可能有不同的方法,如刪除或創建新的表xyz。但是我們決定在導出中使用查詢選項。所以如果有人能給我一個正確的語法,請幫助我。
我一直在試圖用:
query= schema.table:"WHERE ROWID <>
(SELECT MAX(ROWID) FROM schema.table A WHERE A.col1 = A.col1 AND A.col2 = A.col2 AND A.col3 = A.col3)"
但是,這可能會需要重複,我想只有=和<等號(=)和那不是幫助我。它不導出任何行,說導出0rows 所以有什麼建議嗎?
注意,這不會導出唯一的行,而是那些具有重複的行。 –
我想修改答案,thx,我想什麼只談論一些事情 –