2016-12-15 95 views
0

我現在必須瞭解特徵選擇的信息增益, 但我對此沒有清楚的理解。我是一個新手,我對此感到困惑。信息如何在文本分類中起作用

如何在功能選擇(手動計算)中使用IG?

我只是有線索的..有誰能幫助我如何使用formula

enter image description here

那麼這樣的例子example

enter image description here

+0

請解釋一下你做什麼和不理解(公式?信息的目的,獲得什麼?如何編寫代碼它?什麼是概率?) –

+0

我希望我的解釋能幫助你。 –

回答

0

如何在特徵選擇中使用信息增益?

信息增益(InfoGain(t))通過知道文檔中的術語(t)的存在或不存在測量的一類(c)中的預測獲得的信息的比特數。

簡而言之,信息增益是觀察特徵值在觀察到之後等級變量的熵減小的量度。換句話說,分類的信息增益衡量的是某個特徵在某個特定類別中的普遍程度,與其他類別中的普遍特徵相比較。

在文本分類中,特徵是指文檔中出現的術語(又名語料庫)。考慮一下,語料庫中的兩個術語 - term1term2。如果term1將類別變量的熵減小了大於term2的值,則在本示例中對於文檔分類,term1term2更有用。

在情感分類

在正電影評論主要發生,很少在負面評價含有高信息的單詞的上下文爲例。例如,在電影評論中出現「宏偉」這個詞是一個強有力的指標,表明該評論是積極的。這使得「宏偉」是一個高度信息性的詞。

計算熵和蟒蛇信息增益

相關問題