2016-04-30 212 views
1

我是Python新手。我想知道我的數據框中的哪一列有最大的缺失值。假設我們有5行1000列。
例如使用Pandas查找具有最大缺失值的列

C1 C2 ... C1000 
10 21 ... NaN 
NaN 45 ... 29 
15 21 ... NaN 
21 NaN ... 27 
61 NaN ... NaN 

C1000具有最大的缺失值。所以我的代碼應該返回列名「C1000」

回答

3

您可以使用df.count().idxmin()df.count()返回具有非NA/null觀測數的系列。而且,idxmin會爲您提供大多數非NA /空值的列。

In [12]: df 
Out[12]: 
    C1 C2 C1000 
0 10.0 21.0 NaN 
1 NaN 45.0 29.0 
2 15.0 21.0 NaN 
3 21.0 NaN 27.0 
4 61.0 NaN NaN 

In [13]: df.count() 
Out[13]: 
C1  4 
C2  3 
C1000 2 
dtype: int64 

In [14]: df.count().idxmin() 
Out[14]: 'C1000'