2017-05-28 123 views
0

這是我的聽起來很天真的問題。我檢查了谷歌和許多YouTube視頻,對於初學者和幾乎所有人來說,都將數據權重解釋爲最明顯的事情。我仍然不明白爲什麼數據會被加權。機器學習,我們爲什麼需要重量數據

假設我有四個特點:

a b c d 
1 2 1 4 

如果我通過每個值Sigmond功能,我會收到-1> < 1的值了。

我真的不明白爲什麼數據需要或建議首先加權。如果你能以非常簡單的方式向我解釋,我會很感激。

+0

的一個順序描述你的數據稱重是什麼意思。機器學習管道的哪一部分是你看到這個應用的? – Atreys

+0

我看到在應用到sigmond函數之前的特徵值用-1加1 ...實際相乘。但我不明白爲什麼,爲什麼整個過程需要重量? – Makaroniiii

+0

如果您的數據值始終是較大的正數,那麼使用這些輸入的sigmoid(不是sigmond)函數的值是多少? – beaker

回答

0

我認爲你不是在談論稱重數據,而是功能。 功能是您的表格中的一列,以及我會理解行的數據。

現在的混亂來自於稱重行有時也是合理的,例如,如果您想要更多地懲罰正類的錯誤分類。

爲什麼我們需要權衡特徵? 我假設你喜歡

prediction = sigmoid(sum_i weight_i * feature_i) > base 

談論MODLE讓我們假設你想預測一個人是否超重根據體重,身高和年齡。

在該R,我們可以生成一個樣本數據集作爲

height = rnorm(100,1.80,0.1) #normal distributed mean 1.8,variance 0.1 
weight = rnorm(100,70,10) 
age = runif(100,0,100) 
ow = weight/(height**2)>25 #overweight if BMI > 25 
data = data.frame(height,weight,age,bc,ow) 

如果我們現在畫出你可以看到,至少在我的數據的樣本可以在體重/身高的直線分開的數據。但是,年齡並沒有提供任何價值。如果我們在求和/ sigmoid之前對它進行加權,則可以將所有因子放入關係中。

enter image description here

此外,你可以從下面的情節看體重/身高有一個非常不同的領域。因此,他們需要投入的關係,使得在下面的圖中的線有權斜率,作爲權重值具有的幅度較大

enter image description here