sklearn嶺和sample_weight給出內存錯誤

我試圖運行使用樣本權重的陣列的簡單Sklearn嶺迴歸。 X_train是由100 2D numpy的陣列〜200K。我嘗試使用sample_weight選項時出現內存錯誤。沒有這個選項，它工作得很好。爲了簡單起見，我將特徵減少到2，並且sklearn仍然會引發內存錯誤。任何想法？sklearn嶺和sample_weight給出內存錯誤

model=linear_model.Ridge() 

model.fit(X_train, y_train,sample_weight=w_tr) 

Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
    File "/home/g/anaconda/lib/python2.7/site-packages/sklearn/linear_model/ridge.py", line 449, in fit 
    return super(Ridge, self).fit(X, y, sample_weight=sample_weight) 
    File "/home/g/anaconda/lib/python2.7/site-packages/sklearn/linear_model/ridge.py", line 338, in fit 
    solver=self.solver) 
    File "/home/g/anaconda/lib/python2.7/site-packages/sklearn/linear_model/ridge.py", line 286, in ridge_regression 
    K = safe_sparse_dot(X, X.T, dense_output=True) 
    File "/home/g/anaconda/lib/python2.7/site-packages/sklearn/utils/extmath.py", line 83, in safe_sparse_dot 
    return np.dot(a, b) 
MemoryError

來源

2014-03-31 ADJ

設置樣本權重會導致sklearn linear_model Ridge對象處理您的數據的方式存在很大差異 - 尤其是在矩陣較高（n_samples> n_features）的情況下，您的情況更是如此。如果沒有樣本權重將利用以下事實：X.T.dot（X）是一個相對較小矩陣（100×100在您的情況），因此將反轉特徵空間的矩陣。對於給定的樣本權重，Ridge對象決定停留在樣本空間中（爲了能夠單獨對樣本進行加權，請參閱相關行here和here以分支到樣本空間中的_solve_dense_cholesky_kernel），因此需要將矩陣大小相同X.dot（XT）的（在你的情況是N_SAMPLES次X N_SAMPLES次= 200000 X 200000和將導致存儲器錯誤甚至創建之前）。這實際上是一個實施問題，請參閱下面的手動解決方法。

TL; DR：嶺對象是無法治療的特徵空間樣本的權重，並會生成一個矩陣N_SAMPLES次X N_SAMPLES次，這將導致你的內存錯誤

在等待可能的補救辦法中scikit學習，你可以嘗試明確解決在功能空間的問題，像這樣

import numpy as np 
alpha = 1. # You did not specify this in your Ridge object, but it is the default penalty for the Ridge object 
sample_weights = w_tr.ravel() # make sure this is 1D 
target = y.ravel() # make sure this is 1D as well 
n_samples, n_features = X.shape 
coef = np.linalg.inv((X.T * sample_weights).dot(X) + 
         alpha * np.eye(n_features)).dot(sample_weights * target)

對於新樣本X_new，你的預測是

prediction = np.dot(X_new, coef)

爲了確認這種方法的有效性，你可以從你的代碼，它適用於樣本數量較少時比較這些COEF到model.coef_（後你有適合的型號）（例如， 300），與Ridge對象一起使用時不會導致內存錯誤。

重要：只以上的代碼與sklearn實現，如果你的數據已經集中，即您的數據必須具有均值爲0實現一個完整的嶺迴歸的截距擬合這裏就等於一個貢獻scikit學習重合，所以最好發帖there。居中數據的方法如下：

X_mean = X.mean(axis=0) 
target_mean = target.mean() # Assuming target is 1d as forced above

然後，您使用所提供的代碼上

X_centered = X - X_mean 
target_centered = target - target_mean

有關新數據的預測，您需要

prediction = np.dot(X_new - X_mean, coef) + target_mean

編輯：作爲2014年4月15日，scikit-learn嶺迴歸可以處理這個問題（出血邊緣代碼）。它將在0.15版本中提供。

來源

2014-04-02 11:56:21 eickenberg

感謝@ogrisel爲我指出sklearn線性模型以數據爲中心這一事實 – eickenberg

[此增強建議]（https://github.com/scikit-learn/scikit-learn/pull/3034）實現瞭解釋的功能以上。 – eickenberg

scikit學習的最新版本現在支持特徵空間中的樣本權重。 – eickenberg

你安裝了什麼NumPy版本？

看起來像最終的方法調用，它是numpy.dot(X, X.T)，如果在你的情況下X.shape = (200000,2)會產生一個200k乘200k的矩陣。

嘗試將你的觀察到稀疏矩陣型或減少所使用的觀測次數（也有可能是使用在一個時間一些看法一批嶺迴歸的變體？）。

來源

2014-04-01 13:09:06

sklearn嶺和sample_weight給出內存錯誤

回答

相關問題