1
A
回答
1
你可以依次加載每個山坳,然後調用.nunique
:
In [227]:
import io
t="""a,b,c
0,1,1
0,2,1
1,3,1
2,4,1
3,5,6"""
# get the columns first
cols = pd.read_csv(io.StringIO(t), nrows=1).columns
d = {}
for col in cols:
df = pd.read_csv(io.StringIO(t), usecols=col)
d[col] = df[col].nunique()
d
Out[227]:
{'a': 4, 'b': 5, 'c': 2}
這應該然後生成唯一值的數量的類型的字典爲每列
這是假設你能夠處理加載從你的10GB文件一次一列
相關問題
- 1. 在熊貓數據框中重複元素,使每個獨特元素的數量相等
- 2. 找到獨特的列元素計數使用GROUPBY與熊貓
- 3. 熊貓系列:如何每個元素
- 4. 熊貓大CSV
- 5. 熊貓適用&映射到每列的每個元素
- 6. 獲取大熊貓每列最大值的數量
- 7. 熊貓分配多個CSV值在單獨的數據幀列
- 8. Python熊貓 - 多個特定列中的變量的獨特組合
- 9. 大熊貓 - 有效的元素比較
- 10. 大熊貓得到的每
- 11. 熊貓數據框的列中每種標籤的數量
- 12. Python的大熊貓:特定列的每個實例創建新列值
- 13. 對矢量的每個獨特元素使用approxfun
- 14. 熊貓系列的元素操作
- 15. 導入在大熊貓一個CSV文件導入到數據幀大熊貓
- 16. 創建在大熊貓字符串的每次出現新列
- 17. csv java上的列的單獨元素
- 18. 熊貓系列爲變量的每個值應用函數
- 19. 大熊貓從列表中的每一行減去相同數量的
- 20. Python的大熊貓:在一個特定的列添加元素的列表中找到all_elements
- 21. 調用在大熊貓數據幀的每一列的函數
- 22. 查找在大熊貓幀列中的數組元素的位置(又名pd.series)
- 23. 從元組的多個列中的大熊貓
- 24. 比較兩個獨立的熊貓數據幀中的列
- 25. csv中的雙引號元素不能讀熊貓
- 26. 熊貓集團通過獨特的計數作爲新列
- 27. 大熊貓:to_numeric多個列
- 28. cumsum大熊貓高達特定的值 - 蟒蛇大熊貓
- 29. 三維數組中特定元素序列的最大數量
- 30. 大熊貓在列數
我試圖做到這一點,但加載每一列的時間是安靜的大,我有2000列:( – Donbeo
那麼你可以一次穿過100列的列或東西 – EdChum
我知道有可能以區塊的形式讀取數據幀。我想知道是否可以在僅部分讀入內存的數據幀上使用'apply_along_axis' – Donbeo