2017-02-19 795 views
1

的Python 3.5,從sklearn預處理什麼preprocessing.scale()做什麼?它是如何工作的?

df = quandl.get('WIKI/GOOGL') 
X = np.array(df) 
X = preprocessing.scale(X) 
+0

你看過[文檔](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html)嗎? –

+0

是的,但我不明白它在做什麼的X值? –

+1

我相信它會減去平均值和除以指定軸上數據集的標準偏差。 – pbreach

回答

2

的preprocessing.scale()算法將一個規模數據。這對大量稀疏數據集很有幫助。簡而言之,您的數據分佈廣泛。例如,X的也許像這樣的值:

X = [1,4,400,10000,100000]

與稀疏度的問題是它非常偏置或在統計術語偏斜。因此,縮放數據將所有數值放在一個比例上,從而消除稀疏性。關於如何在數學細節中發揮作用,遵循標準化和標準化的相同概念。你可以對這些進行研究,以瞭解它是如何工作的。但爲了讓生活更簡單,sklearn算法爲您做了一切!

相關問題