當我學習Logistic迴歸時,我們使用負對數似然來優化參數w。因此,損失函數(負對數似然值)爲L(w)。Logistic迴歸和最佳參數w
有一個斷言:當訓練樣本可線性分離時,最優w的幅度可以趨於無窮大。
我很困惑: 1.最優w的大小是什麼意思? 2.你能解釋爲什麼w可以無限?
當我學習Logistic迴歸時,我們使用負對數似然來優化參數w。因此,損失函數(負對數似然值)爲L(w)。Logistic迴歸和最佳參數w
有一個斷言:當訓練樣本可線性分離時,最優w的幅度可以趨於無窮大。
我很困惑: 1.最優w的大小是什麼意思? 2.你能解釋爲什麼w可以無限?
這是常態(例如euclidean)通常被理解爲一個向量的大小。
假設我們做二元分類和類是線性可分的。這意味着 存在w'
,因此(x1, w') ≥ 0
對於x1
來自一個類別,而(x2, w') < 0
否則。然後考慮z = a w'
一些積極的a
。很顯然,(x1, z) ≥ 0
和(x2, z) < 0
(我們可以將w'
的方程乘以a
並使用點積的線性),因此您可以看到存在無界範數(量級)的分離超平面(z
s)。
這就是爲什麼要添加正則化術語。
簡短回答: 這是日誌功能的基本特徵。
考慮:值
log(x), where x spans (0,1)
範圍對數(X)可以採用:
is (-Inf, 0)
更具體到你的問題 - 數似然爲:(見圖片)
l(w) = y * log(h(x)) + (1 - y) * log (1 - h(x))
where,
h(x) is a sigmoid function parameters by w:
h(x) = (1 + exp{-wx})^-1
爲了簡單起見考慮一個訓練示例的情況下,其中y = 1, 等式變成:
可能性(1):
= y * log (h(x));
= log (h(x))
H(X)在邏輯迴歸也許通過S形函數來表示。 它有一個範圍(0,1)
因此, 範圍(L)的:
(log (0), log(1)) = (-Inf, 0)
(l) spans the range (-Inf, 0)
上述簡單化只考慮了(Y = 1)的情況。如果考慮整個對數似然函數(即對於y = 1 & y = 0),您將看到倒碗形成本函數。因此,有一個最佳的權重,將對數似然最大化(l)或最小化負對數似然性(-l)