0

我正在尋找能夠解釋神經網絡中權重實際含義的人嗎?神經網絡中權重的意義和規範化函數

所以我的理解到目前爲止,我們有標籤取決於多個功能,我們不確定每個功能對標籤預測的重要性。 (糾正我,如果這是錯誤的)。 所以不是使用標準算法,我們將通過各種權重獨立乘以這些特徵,然後重新相加,以便我們可以測試不同的組合。這就像一個定製的分類算法嗎?或者它只是一個完全不同的概念而已?

但是爲什麼有多個圖層?第二層神經元會添加第一層還不能確定的內容?哦,還因爲它們確實有所作爲(只是我完全不能理解的一個),你是否可以用較多層補償較小的數據集,反之亦然?

除了在兩層之間保持數據在-1和1之間接地之外,還有什麼比標準化函數更重要?如果是這樣,某些類型的數據對於某些規範化函數是否更有效?

我知道這是很多問題,但我在互聯網上找到的大多數信息並不會解釋機制背後的邏輯。

+0

我建議參加一個基本的機器學習課程(暫時忘記深度學習)。你會發現當我們談論權重'w_i'時,我們指的是特徵「x_i」的乘法影響。您可以考慮一個變量的邏輯迴歸作爲最基本的情況:'y_0 = x_0 * w_0 + b_0',這就是一條線的方程。 – erip

回答

0

所以我的理解到目前爲止,我們有標籤取決於多個功能,我們不確定每個功能對標籤預測的重要性。 (糾正我,如果這是錯誤的)。因此,我們不用標準算法,而是通過各種權重獨立乘以這些特徵,然後重新相加,以便我們可以測試不同的組合。這就像一個定製的分類算法嗎?或者它只是一個完全不同的概念而已?你所描述的

線性模型,而不是一個神經網絡,它可以被看作是神經網絡的一個特例,而是非常幼稚的,而不是捕捉模式的精髓。神經網絡,時下,簡直是一個複雜的參數功能,因此,如果您的數據是x(特徵向量)和預期的結果(如標籤)是y然後NN試圖幾乎找到潛在的映射

f(x) = y 

它通過一些參數功能g(x|theta)來完成。你所描述的是一種特殊情況,其中

g(x|theta) = SUM_i^d theta_i x_i + theta_0 

然而,在實踐中的神經網絡要複雜得多那麼,可以有許多「層」,而且是任意圖形,例如兩層神經網絡將

g(x|theta) = SUM_i^K theta_2i s(SUM_j^d theta_1ji x_i + theta_0i) + theta_0 

請注意,現在我有很多的地圖,並且映射是高度非線性的(如果只有激活函數是這樣的話)。

但是爲什麼有多個圖層?第二層神經元會添加第一層還不能確定的內容?

讓我們假設我有以下1維的數據:

1 -> 0 
2 -> 1 
3 -> 1 
4 -> 0 

你的「一層」的模式將是一對數字,所以

g(x|theta) = theta1 * x + theta0 

顯然這不能得到解決,沒有任何東西可以捕捉到上述關係。但是,如果添加附加圖層和非線性模型,則可以找到它們。但是,這隻適用於線性與非線性模型。一旦你有一個隱藏層,你可以建模任何功能(達到某個錯誤)。那麼爲什麼人們有更多?因爲存在並不意味着可學性,由於各種數學原因,更容易將某些類別的功能表示爲深層模型而不是寬層模型。

哦,也因爲他們確實有所作爲(只是我不能完全理解的一個),您是否可以用較多層補償較小的數據集,反之亦然?

不是。這裏唯一的關係是你的一個小數據集不能訓練一個複雜的模型,就這些了。你需要有足夠的數據來進行統計分析。

對於其他任何事情,除了僅僅保持數據在-1和1之間在兩層之間接地之外,還有其他規範化函數嗎?如果是這樣,某些類型的數據對於某些規範化函數是否更有效?

標準化主要是用來穩定優化方法,這是優化程序的所謂preconditionning的一個特定的方式。這並不是簡單的「只是擠壓」,而是要提出使我們的優化技術(學習算法)更穩定(從數值和收斂角度來看)的方案。

+0

我希望SO有LaTeX的支持... :) – erip

+0

謝謝您花時間回答我。 我不明白這一切,但現在我知道我不明白。 – DataBrown

0

理解擬合神經網絡後產生的權重設置的影響是一個公開的問題,一些提出的解決方案實際上相當於使用更容易理解的網絡。見例如http://www.ccri.com/2016/11/10/explainable-artificial-intelligence-xai/,如果僅用於它提供給其他文章的指針。

早在人們就知道單層神經網絡非常有限,而且這一領域的研究多年來一直處於停滯狀態。後來證明,僅添加一個隱藏層可大大增加網絡可能接近的功能。請參閱從https://en.wikipedia.org/wiki/Feedforward_neural_network#Single-layer_perceptron開始的兩節。