2017-09-24 68 views
-1

什麼是從熊貓數據框中移除異常值的有效方法? 我有一個熊貓數據框,我需要從數據框中刪除異常點。從熊貓數據框中移除異常行

X1  X2    X3    X4 
228.0 4474.91836735 3507.15151515 6625.0 
77.0 468.0   582.0   549.0 
160.0 9.0    3507.15151515 6625.0 
36.0 250.0   3507.15151515 6625.0 
52.0 3.0    3.0    223.0 
78.0 998.0   3507.15151515 6625.0 

我試圖在link 的解決方案,但被拆除無分。即使是同樣的sklearn實現也是有用的。

回答

0

這裏確實存在兩個問題:1)異常值檢測,2)將它們從數據框中刪除。

問題2相當簡單。您可以使用這樣的事情,一旦你發現異常值在列:

df = df[df.loc[:,'column_name'] < high_threshold] 
df = df[df.loc[:,'column_name'] > low_threshold] 

現在,#1,異常檢測方法有很大的不同。如果你只有這四個維度而沒有太多的數據,那麼不需要sklearn即可。

因爲我不知道你的申請,我會指出你this documentation on outlier detection in sklearn