學習建模之前居中和縮放至單位方差我怎樣才能變換給定的數據爲平均值爲中心,並調整爲使用大熊貓或numpy的或任何合適的python模塊單位方差設定數據還包含一些缺失的值,因爲在建模任務請求幫助之前也應該刪除「Nan」。我怎樣才能變換的描述符的意思機使用Python和大熊貓
謝謝
Ex。數據集。
GA_ID PN_ID PC_ID MBP_ID GR_ID AP_ID class
0.033 6.652 6.681 0.194 0.874 3.177 0
0.034 9.039 6.224 0.194 1.137 Nan 0
0.035 10.936 10.304 1.015 0.911 4.9 1
0.022 10.11 9.603 1.374 0.848 4.566 1
0.035 2.963 17.156 0.599 0.823 9.406 1
0.033 10.872 10.244 1.015 0.574 4.871 1
0.035 21.694 22.389 1.015 0.859 9.259 1
0.035 10.936 10.304 1.015 0.911 Nan 1
0.035 10.936 10.304 1.015 0.911 4.9 1
0.035 10.936 10.304 1.015 0.911 4.9 0
0.036 1.373 12.034 0.35 0.259 5.723 0
0.033 9.831 9.338 0.35 0.919 4.44 0
我用:
from sklearn import preprocessing
import numpy as np
raw_data = open("/home/zebrafish/Desktop/scklearn/data.csv")
dataset = np.loadtxt(raw_data, delimiter=",")
X = dataset[:,0:5]
y = dataset[:,6]
X_pro = preprocessing.scale(X)
,但我不知道枯萎這種方法目前還是一下子就忽略了「南」,否則將自動採取「南」適當的步驟,因爲在原始數據沒有「南」價值,但要了解解決方案是否發生我已經在兩個位置手動合併了「南」。
感謝
Question Update
隨着一些谷歌上搜索和周圍的數據可能打我發現這種方法可以歸行的基礎上的數據,我想與正常化列的基礎數據。
那麼什麼是列基正規化的適當方法。
感謝
你可以發佈最終的df值應該是什麼,並給出你正在嘗試應用的計算的例子,謝謝 – EdChum 2015-03-25 09:14:01
我已經使用更新的方法 – jax 2015-03-25 09:53:12
你可以刪除'NaN'值並比較輸出no? – EdChum 2015-03-25 09:54:02