我有兩個gzipped csv文件IMFBOP2017_1.csv.gz
和IMFBOP2017_2.csv.gz
在兩個文件中都有相同的列,例如"Location, Indicator, Measure, Unit, Frequency, Date"
。Python 3.6:比較兩個大gzipped csv文件和獲取差異記錄
共行60個百萬+
我想的IMFBOP2017_1
不存在於IMFBOP2017_2
兩個文件&顯示行比較。
我的計劃是將這兩個文件導入到dataframes,增加一列「比較」既dataframes和更新所有字段合併像
位置|指示器|測量|單位|頻|日期和不要操作。
我認爲這是一個昂貴的過程,有沒有簡單的解決方案呢?
你應該先試試,然後問什麼可以改進並提供代碼 –
是的,這是一個昂貴的過程。文件中的行是以任何方式排序的? –
@ PM 2Ring,行不排序。 – Plinus