scikit-learn MinMaxScaler產生的結果與NumPy實現的結果略有不同

我將使用NumPy的scikit-learn Min-Max縮放器與preprocessing模塊進行了比較。但是，我注意到結果稍有不同。有沒有人對此有過解釋？scikit-learn MinMaxScaler產生的結果與NumPy實現的結果略有不同

使用的最小 - 最大縮放公式如下：

enter image description here

這應該是一樣的scikit學習一個：(X - X.min(axis=0))/(X.max(axis=0) - X.min(axis=0))

我使用這兩種方法如下：

def numpy_minmax(X): 
    xmin = X.min() 
    return (X - xmin)/(X.max() - xmin) 

def sci_minmax(X): 
    minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True) 
    return minmax_scale.fit_transform(X)

隨機抽樣：

import numpy as np 

np.random.seed(123) 

# A random 2D-array ranging from 0-100 

X = np.random.rand(100,2) 
X.dtype = np.float64 
X *= 100

結果稍有不同：

from matplotlib import pyplot as plt 

sci_mm = sci_minmax(X) 
numpy_mm = numpy_minmax(X) 

plt.scatter(numpy_mm[:,0], numpy_mm[:,1], 
     color='g', 
     label='NumPy bottom-up', 
     alpha=0.5, 
     marker='o' 
     ) 

plt.scatter(sci_mm[:,0], sci_mm[:,1], 
     color='b', 
     label='scikit-learn', 
     alpha=0.5, 
     marker='x' 
     ) 

plt.legend() 
plt.grid() 

plt.show()

enter image description here

來源

2014-07-13 Sebastian

scikit-learn處理每個單獨功能。所以，你需要指定axis=0採取min時，否則numpy.min將是最小的陣列的每個單獨列的所有的元素，而不是：

>>> xs 
array([[1, 2], 
     [3, 4]]) 
>>> xs.min() 
1 
>>> xs.min(axis=0) 
array([1, 2])

爲numpy.max同樣的事情;所以正確的功能是：

def numpy_minmax(X): 
    xmin = X.min(axis=0) 
    return (X - xmin)/(X.max(axis=0) - xmin)

這樣做，你會得到一個確切的匹配：

exact match

來源

2014-07-13 16:41:33

這是偉大的，謝謝！ – Sebastian

scikit-learn MinMaxScaler產生的結果與NumPy實現的結果略有不同

回答

相關問題