2015-07-21 62 views
1

我希望這是一個合適的問題。如果沒有,請告訴我,我會立即將其刪除。檢查python中合併/合併期間出現的錯誤的大數據幀

問:

如何我可以使用Python檢查(視覺?)的組合過程中出現的錯誤,大數據集?

背景:

我與我相結合,形成一個更大的數據集幾大(但不是,你知道「大」)數據集進行操作。這個新的設置大小約爲2.5G,所以它不適合大多數電子表格程序,或者至少不是我嘗試過的(MS Excel,OpenOffice)。

創建最終數據集的過程使用模糊匹配(通過fuzzywuzzy),並且我想檢查匹配的結果以查看是否引入了任何錯誤。

截至目前,我已經嘗試將整個集合導入pandas數據框。這個DF有64列,所以當我簡單地做一些像df.head()這樣的結果顯示的信息顯然不會顯示所有列;因此我排除了迭代多個.head()調用。

還有一個類似的問題,關於可視化數據幀的特定方面here。我認爲我的問題是不同的,因爲我不需要想象關於底層結構或類型的任何東西。我只是想直觀地檢查我懷疑可能有錯誤的地方。

+2

如何設置顯示屬性以便顯示所有行和列?這可以接受嗎? –

+0

感謝您的意見!我已經嘗試過了,但是在IDE(我使用PyCharm)的標準屏幕上有包裝問題,我想每次檢查10-12列。 另一種我現在無法工作的方法是將每一行都設置爲一個列表,然後在屏幕上以遞減的方式打印列表,以便至少讀取「行」以查看是否事情看起來不錯。我認爲這可能會起作用,因爲列表中的每一項都將在屏幕上自行打印,所以我會有很多屏幕空間。 –

+1

我想你可能只需要花費一些時間用索引/選擇文檔:http://pandas.pydata.org/pandas-docs/version/0.16.2/indexing.html然後,你可以,例如,看看前五列數據,其中某列以字母「W」開始。如果您遇到麻煩的具體事情,請發佈有關如何操作的新跟進問題。 – JohnE

回答

1

如何切片您的10-12行,然後轉置您有64行x 12列數據框。這應該是可讀的,只要你沒有非常大的索引名稱。

import pandas as pd 
import numpy as np 

# Set max number of rows, 64 would be enough here but I'm trying to be safe 
pd.set_option('display.max_rows', 500) 

df = pd.DataFrame(np.random.randn(1000,64)) 
nstart = 100 
# Slice 12 lines starting at nstart, and transpose that... 
df.iloc[nstart:(nstart+13)].T 

我不介意你在這裏輸出,但嘗試運行上面的代碼。

+0

非常讚賞。我認爲這是一條路。不是'.iloc'功能的軟件。 –

+0

'.ix'接受基於混合整數/標籤的索引,如果您需要它。如果我的答案解決了您的問題,請將答案標記爲已接受以便關閉此問題 –