有人能給我一個清晰和簡單的最大熵分類的定義嗎?如果有人能夠提供一個明確的比喻,這將會非常有幫助,因爲我正在努力去理解。什麼是最大熵?
Q
什麼是最大熵?
1
A
回答
1
「Maximum Entropy」與「Least Informative」同義。你不會想要一個信息量最小的分類器。它是關於前輩是如何建立的。坦率地說,「最大熵分類」是一個使用時髦詞彙的例子。
對於無信息的先驗的例子,考慮給定一個六邊對象。如果物體被扔掉,任何給定的臉部將出現的概率是1/6。這將是您先前的開始。這是最少的信息。你真的不想從其他任何東西開始,否則你會偏向後面的計算。當然,如果你知道一方會更頻繁地出現,那麼你應該把它融入你的先驗。貝葉斯公式爲P(H | E)= P(E | H)P(H)/ P(D) 其中P(H)是假設的先驗值,P(D)是和所有可能的分子。
對於缺少單詞插入的文本分類,E是給定的文檔,H是給定的單詞。 IOW,假設是H是應該選擇的詞並且P(H)是賦予詞的權重。
最大熵文本分類意味着:從最少信息權重(先驗)開始,並進行優化以找到最大化數據可能性的權重P(D)。本質上,它是EM算法。
簡單的樸素貝葉斯分類器會假設先前的權重與單詞出現在文檔中的次數成正比。但是,這忽略了單詞之間的相關性。
所謂的MaxEnt分類器考慮了相關性。
我想不出一個簡單的例子來說明這一點,但我可以想到一些相關性。例如,英語中的「失蹤」應該給名詞更高的權重,但如果樸素貝葉斯分類器的相對頻率與給定名詞相同,則其可以給動詞賦予相同的權重。考慮到缺失的MaxEnt分類器會給名詞帶來更多的分量,因爲它們在上下文中可能性更大。
相關問題
- 1. 什麼是最大聲級
- 2. 自然語言處理的最大熵
- 3. Python NLTK最大熵分類器錯誤
- 4. 什麼是最大的SQL表大小
- 5. LLVM的最大好處是什麼?
- 6. 什麼是start_urls的最大尺寸
- 7. log4net,logging,什麼是最大的優點
- 8. 什麼是最低VM預算大小?
- 9. 什麼是apache的最大url長度?
- 10. 什麼是MySQL表的最大行數
- 11. 什麼是clientUserId的最大長度
- 12. 什麼是CakePHP最大的網站?
- 13. Memcached最強大的功能是什麼?
- 14. 什麼是TimeSeriesChart的最大範圍值
- 15. 什麼是MySQL的最佳varchar大小?
- 16. Windows上有什麼熵源可用?
- 17. heroku有什麼熵源可用?
- 18. 二進制文件中的熵 - 目的是什麼?
- 19. 的Python CVXOPT爲最小熵
- 20. 交叉熵是nan
- 21. 什麼是大會
- 22. python中熵不均勻性修正的熵最小化
- 23. 什麼RSA最大塊大小編碼?
- 24. 什麼是IIS7的最大存儲大小?
- 25. 什麼是Azure VM中MSSQL Server的磁盤的最大大小?
- 26. 什麼可以是我可以擁有的最大「POST」大小?
- 27. 什麼是ios中的sqlite的最大大小限制
- 28. 爲什麼ArrayList的最大數組大小是Integer.MAX_VALUE - 8?
- 29. 什麼是mysql的最大查詢大小?
- 30. 爲什麼Java堆的最大大小是固定的?