熊貓發現每個巨大的csv列中的獨特元素數量

我有一個巨大的csv文件大約10 GB，如果我嘗試在內存中加載，我會得到一個錯誤。熊貓發現每個巨大的csv列中的獨特元素數量

我需要計算每個數據幀的唯一元素的數量。我怎樣才能做到這一點？

2015-04-17 Donbeo

你可以依次加載每個山坳，然後調用.nunique：

In [227]: 

import io 
t="""a,b,c 
0,1,1 
0,2,1 
1,3,1 
2,4,1 
3,5,6""" 
# get the columns first 
cols = pd.read_csv(io.StringIO(t), nrows=1).columns 
 
d = {} 
for col in cols: 
    df = pd.read_csv(io.StringIO(t), usecols=col) 
    d[col] = df[col].nunique() 
d 
Out[227]: 
{'a': 4, 'b': 5, 'c': 2}

這應該然後生成唯一值的數量的類型的字典爲每列

這是假設你能夠處理加載從你的10GB文件一次一列

來源

2015-04-17 14:05:45 EdChum

我試圖做到這一點，但加載每一列的時間是安靜的大，我有2000列:( – Donbeo

那麼你可以一次穿過100列的列或東西 – EdChum

我知道有可能以區塊的形式讀取數據幀。我想知道是否可以在僅部分讀入內存的數據幀上使用'apply_along_axis' – Donbeo

熊貓發現每個巨大的csv列中的獨特元素數量

回答

相關問題