2014-09-20 126 views
1

當我學習Logistic迴歸時,我們使用負對數似然來優化參數w。因此,損失函數(負對數似然值)爲L(w)。Logistic迴歸和最佳參數w

有一個斷言:當訓練樣本可線性分離時,最優w的幅度可以趨於無窮大。

我很困惑: 1.最優w的大小是什麼意思? 2.你能解釋爲什麼w可以無限?

回答

1
  1. 這是常態(例如euclidean)通常被理解爲一個向量的大小。

  2. 假設我們做二元分類和類是線性可分的。這意味着 存在w',因此(x1, w') ≥ 0對於x1來自一個類別,而(x2, w') < 0否則。然後考慮z = a w'一些積極的a。很顯然,(x1, z) ≥ 0(x2, z) < 0(我們可以將w'的方程乘以a並使用點積的線性),因此您可以看到存在無界範數(量級)的分離超平面(z s)。

這就是爲什麼要添加正則化術語。

1

簡短回答: 這是日誌功能的基本特徵。

考慮:值

    log(x), where x spans (0,1) 

範圍對數(X)可以採用:

      is (-Inf, 0) 

更具體到你的問題 - 數似然爲:(見圖片)

l(w) = y * log(h(x)) + (1 - y) * log (1 - h(x)) 

    where, 

     h(x) is a sigmoid function parameters by w: 
       h(x) = (1 + exp{-wx})^-1  

爲了簡單起見考慮一個訓練示例的情況下,其中y = 1, 等式變成:

可能性(1):

  = y * log (h(x)); 

      =  log (h(x)) 

H(X)在邏輯迴歸也許通過S形函數來表示。 它有一個範圍(0,1)

因此, 範圍(L)的:

  (log (0), log(1)) = (-Inf, 0) 

      (l) spans the range (-Inf, 0) 

上述簡單化只考慮了(Y = 1)的情況。如果考慮整個對數似然函數(即對於y = 1 & y = 0),您將看到倒碗形成本函數。因此,有一個最佳的權重,將對數似然最大化(l)或最小化負對數似然性(-l)