2015-11-05 344 views
0

作爲我的任務的一部分,我正在處理幾個數據集,並使用線性迴歸來查找他們的訓練錯誤。我想知道標準化是否對訓練錯誤有影響?我的相關性和RMSE在標準化之前和之後對於數據集來說都是相同的。標準化對線性迴歸的影響:機器學習

感謝,

回答

5

很容易顯示,線性迴歸,如果你只是通過縮放(由a變換輸入數據也沒關係;這同樣適用於翻譯,這意味着形式X' = aX + b的任何改造爲真實a != 0,b具有相同的屬性)。

X' = aX 

w = (X^TX)X^Ty 
w' = (aX^TaX)^-1 aX^Ty 
w' = 1/a w 

因此

X^Tw = 1/a aX^T w = aX^T 1/a w = X'^Tw'^T 

因此突起,其中計算的誤差是完全一樣的前和縮放之後,所以任何類型的損失函數(獨立於x)的產生完全相同的結果。

但是,如果您縮放輸出變量,那麼錯誤將會改變。此外,如果您以更復雜的方式標準化數據集,然後乘以數字(例如 - 通過增白或幾乎任何旋轉),則您的結果將取決於預處理。如果您使用正則化線性迴歸(嶺迴歸),那麼即使通過常量縮放輸入數據也很重要(因爲它會改變正則化參數的「含義」)。