我有如下表:Python的定義重複規則
index col_A col_B
0 John Jones
1 Perez Mark
2 Jones John
3 Mark Perez
4 Albert Perez
行0和2列的值轉換以及行1和3。我正在尋找一種方式來識別行0和2重複,第1行和第3行也是重複的。然後,我想刪除重複項並只保留其中一個唯一的事件。所以得到的矩陣應該是3乘2(因爲第4行沒有重複)。有沒有一種有效的方式來做到這一點,而不使用嵌套循環(我的表有超過3百萬行)?由於
你正在使用什麼數據庫引擎? – youngminz
@youngminz:這是一個csv文件 –
這將是有效的算法 1:讀取所有數據到存儲器2:排序爲col_a和col_B 3)分類DATAS ==> O(N log_2 N)4)查找重複==> O( N) – youngminz