2016-02-29 167 views
0

我有兩個CSV文件,我想驗證這兩個文件之間的數據(找出差異和相似之處)。使用python驗證兩個CSV文件的最簡單方法

我從Vertica中檢索這些數據,並且由於數據太大,我想在CSV級別進行驗證。

+0

你能提供一個你想要做什麼的例子嗎? – sumit

+0

爲什麼你不想比較你的數據集在vertica __before__中導出爲CSV文件? – MaxU

回答

1

csvdiff允許您比較兩個CSV文件的語義內容,忽略諸如行和列順序之類的事情以便實現實際更改的內容。如果您將自動系統的輸出從一天到下一天進行比較,那麼這很有用,這樣您就可以查看發生了什麼變化。

+0

謝謝Harish。 –

+0

沒有probs @ user840882!所有最好:) – harishkb

1

我不認爲你可以使用openpyxl直接比較工作表,而無需在每行上手動循環並使用自己的驗證代碼。 這取決於您的表現目標,如果速度不是要求,那麼爲什麼不這樣做,但這需要一些額外的工作。

取而代之,我會使用pandas數據框來滿足任何CSV驗證需求,如果您可以添加此依賴關係,它應該變得更容易比較文件,同時保持良好的性能。

這裏是完成一個鏈接例如: http://pbpython.com/excel-diff-pandas.html

然而,使用read_csv(而不是read_excel()從文件中讀取數據)。

+1

這是非常有用的Retsim,謝謝.. ..! –

+0

@ user840882很高興幫助! – Retsim

相關問題