0
我現在必須瞭解特徵選擇的信息增益, 但我對此沒有清楚的理解。我是一個新手,我對此感到困惑。信息如何在文本分類中起作用
如何在功能選擇(手動計算)中使用IG?
我只是有線索的..有誰能幫助我如何使用formula
那麼這樣的例子example
我現在必須瞭解特徵選擇的信息增益, 但我對此沒有清楚的理解。我是一個新手,我對此感到困惑。信息如何在文本分類中起作用
如何在功能選擇(手動計算)中使用IG?
我只是有線索的..有誰能幫助我如何使用formula
那麼這樣的例子example
如何在特徵選擇中使用信息增益?
信息增益(InfoGain(t)
)通過知道文檔中的術語(t)的存在或不存在測量的一類(c)中的預測獲得的信息的比特數。
簡而言之,信息增益是觀察特徵值在觀察到之後等級變量的熵減小的量度。換句話說,分類的信息增益衡量的是某個特徵在某個特定類別中的普遍程度,與其他類別中的普遍特徵相比較。
在文本分類中,特徵是指文檔中出現的術語(又名語料庫)。考慮一下,語料庫中的兩個術語 - term1
和term2
。如果term1
將類別變量的熵減小了大於term2
的值,則在本示例中對於文檔分類,term1
比term2
更有用。
在情感分類
在正電影評論主要發生,很少在負面評價含有高信息的單詞的上下文爲例。例如,在電影評論中出現「宏偉」這個詞是一個強有力的指標,表明該評論是積極的。這使得「宏偉」是一個高度信息性的詞。
計算熵和蟒蛇信息增益
請解釋一下你做什麼和不理解(公式?信息的目的,獲得什麼?如何編寫代碼它?什麼是概率?) –
我希望我的解釋能幫助你。 –