有沒有人使用貝葉斯過濾器讓論壇成員分類帖子,所以隨着時間的推移論壇只顯示有趣的帖子?貝葉斯過濾器似乎可以很好地檢測垃圾郵件。實施貝葉斯過濾器是一種可行的方法,可以過濾用戶的論壇帖子嗎?論壇帖子的貝葉斯過濾
2
A
回答
1
試圖通過貝葉斯分類器或任何其他自動分類系統對感興趣/好的論壇帖子進行分類的困難在於帖子的詞語和/或詞語結構與其相對價值或效用之間可能缺乏相關性。
垃圾郵件過濾器的工作原理主要是因爲單詞的選擇和結構總體上是系統性不尋常的:垃圾郵件發送者正在嘗試推銷特定的產品,服務等。雖然垃圾郵件發送者可以嘗試增加特定的產品,服務等,但仍有合理的關聯和模式。通過各種技術做到這一點很困難。
這樣的字/結構模式不太可能存在好的與壞的論壇帖子。但是,有一種替代方法可以重構可能有用的問題:
- 允許用戶根據您的描述將帖子分類爲好或不好。
- 使用貝葉斯分類器或其他統計推斷方法來識別與整個社區的排名行爲具有最高相關性的論壇用戶,即具有最佳品味的用戶,並且是社區如何的好預測因子作爲一個整體將查看內容。
- 使用來自步驟#2中識別的好預測者用戶池的論壇帖子排名過濾論壇帖子。這要求一個或多個這樣的用戶實際上在某個時候對新內容進行排名,因此該池需要具有一定的規模,並且包括常規用戶,以使這樣的過濾系統有用。
- 這個分類系統需要定期重建作爲用戶的社區大概是動態的,具有改變利益等
我提議實際上對你的問題的工作方式以及如何取決於很多的論壇的性質,用戶對內容排名的肯定程度,以及他們如何看待發布內容的價值。此外,用戶社區的整體規模可能是一個因素:如果它太小,可能沒有足夠的數據來處理;如果過大,您可能會遇到計算縮放問題,並針對排名數據運行分類器推理方法。
0
協作過濾不會更好嗎?
相關問題
- 1. 新帖子/論壇上的帖子
- 2. Python:樸素貝葉斯電影評論
- 3. 拉最新論壇WordPress內的帖子
- 4. pymc3中的貝葉斯因子
- 5. 貝葉斯vs OLS
- 6. 是否有用於.NET的貝葉斯過濾器庫
- 7. 用於Python的貝葉斯垃圾郵件過濾庫
- 8. 將論壇帖子標記爲已讀?
- 9. 在論壇上計算帖子數量
- 10. 在mysql中存儲論壇帖子
- 11. Web刮每個論壇帖子(Python,Beautifulsoup)
- 12. 樸素貝葉斯垃圾郵件過濾效果
- 13. 樸素貝葉斯垃圾郵件過濾器問題
- 14. 我需要通過Google Oauth閱讀Google網上論壇帖子
- 15. 設計貝葉斯網絡
- 16. Matlab樸素貝葉斯
- 17. 理解貝葉斯定理
- 18. 貝葉斯網絡澄清
- 19. PHP貝葉斯分類器
- 20. 貝葉斯網絡教程
- 21. 實現貝葉斯網絡
- 22. Clojure DAG(貝葉斯網絡)
- 23. 貝葉斯網絡在Matlab
- 24. 樸素貝葉斯迴歸
- 25. 實現高斯樸素貝葉斯
- 26. 針對子論壇內的子論壇的PHP樹遍歷
- 27. 貝葉斯方法:哪部分難以在貝葉斯推斷中評估
- 28. 查詢獲得論壇帖子/回覆 - 只顯示最新的帖子
- 29. Stackoverflow就像它的討論/論壇標籤過濾器處理
- 30. 什麼是最好的開源Java貝葉斯垃圾郵件過濾器庫?
協作過濾對於像SO這樣的論壇以及Slashdot的論壇來說非常合適,但它也需要來自論壇用戶的大量關注。我認爲基於社區和自動篩選的一些混合體是可取的,並且具有不錯的潛力,但這也可能是有效推進的挑戰。 – 2010-06-12 22:41:29