信息如何在文本分類中起作用

我現在必須瞭解特徵選擇的信息增益，但我對此沒有清楚的理解。我是一個新手，我對此感到困惑。信息如何在文本分類中起作用

如何在功能選擇（手動計算）中使用IG？

我只是有線索的..有誰能幫助我如何使用formula

那麼這樣的例子example

請解釋一下你做什麼和不理解（公式？信息的目的，獲得什麼？如何編寫代碼它？什麼是概率？） –

我希望我的解釋能幫助你。 –

如何在特徵選擇中使用信息增益？

信息增益（InfoGain(t)）通過知道文檔中的術語（t）的存在或不存在測量的一類（c）中的預測獲得的信息的比特數。

簡而言之，信息增益是觀察特徵值在觀察到之後等級變量的熵減小的量度。換句話說，分類的信息增益衡量的是某個特徵在某個特定類別中的普遍程度，與其他類別中的普遍特徵相比較。

在文本分類中，特徵是指文檔中出現的術語（又名語料庫）。考慮一下，語料庫中的兩個術語 - term1和term2。如果term1將類別變量的熵減小了大於term2的值，則在本示例中對於文檔分類，term1比term2更有用。

在情感分類

在正電影評論主要發生，很少在負面評價含有高信息的單詞的上下文爲例。例如，在電影評論中出現「宏偉」這個詞是一個強有力的指標，表明該評論是積極的。這使得「宏偉」是一個高度信息性的詞。

計算熵和蟒蛇信息增益

2016-12-23 23:05:41

回答