2010-02-17 113 views
2

有沒有人使用貝葉斯過濾器讓論壇成員分類帖子,所以隨着時間的推移論壇只顯示有趣的帖子?貝葉斯過濾器似乎可以很好地檢測垃圾郵件。實施貝葉斯過濾器是一種可行的方法,可以過濾用戶的論壇帖子嗎?論壇帖子的貝葉斯過濾

回答

1

試圖通過貝葉斯分類器或任何其他自動分類系統對感興趣/好的論壇帖子進行分類的困難在於帖子的詞語和/或詞語結構與其相對價值或效用之間可能缺乏相關性。

垃圾郵件過濾器的工作原理主要是因爲單詞的選擇和結構總體上是系統性不尋常的:垃圾郵件發送者正在嘗試推銷特定的產品,服務等。雖然垃圾郵件發送者可以嘗試增加特定的產品,服務等,但仍有合理的關聯和模式。通過各種技術做到這一點很困難。

這樣的字/結構模式不太可能存在好的與壞的論壇帖子。但是,有一種替代方法可以重構可能有用的問題:

  1. 允許用戶根據您的描述將帖子分類爲好或不好。
  2. 使用貝葉斯分類器或其他統計推斷方法來識別與整個社區的排名行爲具有最高相關性的論壇用戶,即具有最佳品味的用戶,並且是社區如何的好預測因子作爲一個整體將查看內容。
  3. 使用來自步驟#2中識別的好預測者用戶池的論壇帖子排名過濾論壇帖子。這要求一個或多個這樣的用戶實際上在某個時候對新內容進行排名,因此該池需要具有一定的規模,並且包括常規用戶,以使這樣的過濾系統有用。
  4. 這個分類系統需要定期重建作爲用戶的社區大概是動態的,具有改變利益等

我提議實際上對你的問題的工作方式以及如何取決於很多的論壇的性質,用戶對內容排名的肯定程度,以及他們如何看待發布內容的價值。此外,用戶社區的整體規模可能是一個因素:如果它太小,可能沒有足夠的數據來處理;如果過大,您可能會遇到計算縮放問題,並針對排名數據運行分類器推理方法。

0

協作過濾不會更好嗎?

+1

協作過濾對於像SO這樣的論壇以及Slashdot的論壇來說非常合適,但它也需要來自論壇用戶的大量關注。我認爲基於社區和自動篩選的一些混合體是可取的,並且具有不錯的潛力,但這也可能是有效推進的挑戰。 – 2010-06-12 22:41:29