多級分類的成本函數是什麼？

我很難知道什麼是神經網絡的損失函數。對於二元分類問題，它是否意味着平方誤差，如以下視頻中所述：https://www.youtube.com/watch?v=5u0jaA3qAGk&t=59s或者它是否與這裏定義的熵熵http://work.caltech.edu/slides/slides09.pdf以及爲什麼？此外，在多分類的情況下，我認爲有一些像softmax，但我真的不知道它是如何工作的。有人能解釋我嗎？多級分類的成本函數是什麼？

謝謝！

來源

2017-09-08 MysteryGuy

從理論上講，您可以使用任何損失函數來構建神經網絡。您可以使用均方誤差或交叉熵損失函數。它歸結爲什麼將是最有效的。通過最有效的方式，我的意思是：什麼可以讓您更快和/或更準確地學習參數。

實際上大多數神經網絡傾向於使用交叉熵。很多初學者的課程和神經網絡教程都會告訴你平均誤差，因爲它可能更直觀，更易於理解。

這article介紹比較詳細，但讓我報價：

我們什麼時候應該用交叉熵，而不是二次費用是多少？在事實上，交叉熵是幾乎總是更好的選擇，提供輸出神經元是神經乙狀結腸

關於SOFTMAX功能。你可能知道，每個神經元都會有一個激活功能。很多時候這個函數是一個sigmoid函數。 softmax函數是另一種類型的激活函數，通常用於神經網絡的最後一層。 softmax功能具有獨特的屬性。輸出將是從0到1的值，並且層中每個神經元的所有輸出的總和將等於1.有效地指示概率。這對於多類分類非常合適，因爲它會給你每個類的概率，並且你可以選擇具有最高概率的類。

來源

2017-09-08 13:08:57

謝謝，它有幫助。是不是平均誤差不是很明智，因爲我們真的很重視班級的人數（即班級3比班級1「更重要」）。另外，你有沒有任何文章解釋適當softmax？ – MysteryGuy

不是，交叉熵優於均方的原因主要源於數學和衍生物。成本函數的導數用於反向傳播算法。這裏有一篇關於softmax的文章。 http://dataaspirant.com/2017/03/07/difference-between-softmax-function-and-sigmoid-function/ –

我並沒有真正理解交叉熵優於均方的理由。。爲什麼它應該與衍生品掛鉤？有兩種可推導的...請你多開發一些？ – MysteryGuy

多級分類的成本函數是什麼？

回答

相關問題