2017-08-01 74 views
0

我有兩個gzipped csv文件IMFBOP2017_1.csv.gzIMFBOP2017_2.csv.gz在兩個文件中都有相同的列,例如"Location, Indicator, Measure, Unit, Frequency, Date"Python 3.6:比較兩個大gzipped csv文件和獲取差異記錄

共行60個百萬+

我想的IMFBOP2017_1不存在於IMFBOP2017_2兩個文件&顯示行比較。

我的計劃是將這兩個文件導入到dataframes,增加一列「比較」既dataframes和更新所有字段合併像

位置|指示器|測量|單位|頻|日期和不要操作。

我認爲這是一個昂貴的過程,有沒有簡單的解決方案呢?

+1

你應該先試試,然後問什麼可以改進並提供代碼 –

+0

是的,這是一個昂貴的過程。文件中的行是以任何方式排序的? –

+0

@ PM 2Ring,行不排序。 – Plinus

回答

1

熊貓可以用普通的pandas.read_csv()讀取gzipped的數據文件。 Pandas: Diff of two Dataframes中描述瞭如何在兩個數據幀之間執行差異。

+0

謝謝,將檢查。好一個。 – Plinus

+0

我提到上面給出的鏈接,它的工作......非常感謝。 – Plinus