回答
保羅格雷厄姆是真正介紹了在2002年8月用他的原始文章A Plan for Spam在網上廣泛使用貝葉斯垃圾郵件過濾這個想法的人。然後,his follow-up一年左右後,很快就引入了許多問題,出現了。這些在這個話題上仍然非常棒。
在第二篇文章中,格雷厄姆提到使用CRM114,它的工作方式比空格分隔的單詞要寬得多。 CRM114很酷,但沒有太多垃圾郵件過濾系統的實施幫助。
有開源的powertools用於貝葉斯垃圾郵件過濾,如Death2Spam和SpamProbe。
我發現沒有什麼作品像通過Gmail帳戶過濾郵件。快樂狩獵。
我認爲爲了打敗你提到的那種垃圾郵件攻擊,重要的不是學習方法,而是你訓練的功能。我使用Fidelis Assis的OSBF-Lua這是一個非常成功的過濾器:它不斷贏得垃圾郵件過濾器競賽。它採用貝葉斯學習,但我認爲其成功的真正原因是三個原則:
它訓練不是單一的話,但對稀疏二元語法:一對由0〜4「分隔的單詞不關懷「的話。垃圾郵件發送者必須將他們的消息放在的某處,而稀疏的bigrams非常擅長將它們排除在外。它甚至發現附帶垃圾郵件!
它對郵件標題做了額外的培訓,因爲這些對於垃圾郵件製造者來說很難僞裝。例如:源自您的網絡且永遠不會通過離網中繼主機的消息可能不是垃圾郵件。
如果垃圾郵件過濾器對其分類的置信度較低,則會請求來自人的輸入。 (實際上,它增加了一個標題字段,表示「請在此消息上訓練我」;人可以忽略該請求)。這意味着,隨着垃圾郵件發送者逐漸發展新技術,您的過濾器將發展爲匹配。
這種技術的組合非常有效。
免責聲明:我與菲德利斯上重構了一些軟件,使其可以用於其他用途,如普通郵件分成組或可能一個整天來檢測在博客評論和其他地方的垃圾郵件的工作。
你是對的,樸素貝葉斯過濾器易受Bayesian poisoning的影響。
我使用Popfile不僅可以分類垃圾郵件,還可以將我的電子郵件分類,我發現它非常有效。它使用樸素貝葉斯過濾器。
- 1. 樸素貝葉斯垃圾郵件過濾器問題
- 2. 用於Python的貝葉斯垃圾郵件過濾庫
- 3. 樸素貝葉斯分類(垃圾郵件過濾) - 哪種計算是正確的?
- 4. Matlab樸素貝葉斯
- 5. 樸素貝葉斯迴歸
- 6. 什麼是最好的開源Java貝葉斯垃圾郵件過濾器庫?
- 7. 實現高斯樸素貝葉斯
- 8. Python:樸素貝葉斯電影評論
- 9. 屬性選擇+ WEKA +樸素貝葉斯
- 10. 樣品Accord.NET樸素貝葉斯
- 11. [Python的] sklearn樸素貝葉斯
- 12. 樸素貝葉斯分類器
- 13. Python - SelectFromModel與樸素貝葉斯
- 14. 樸素貝葉斯與Apache星火MLlib
- 15. 多個樸素貝葉斯分類器
- 16. 樸素貝葉斯的問題
- 17. 樸素貝葉斯分類與R - 奇怪的結果
- 18. NLTK樸素貝葉斯分類器奇怪的結果
- 19. 爲什麼在分類垃圾郵件時貝葉斯過濾比神經網絡更好?
- 20. 從R中樸素貝葉斯模型打印條件概率
- 21. MSN如何過濾垃圾郵件?
- 22. 針對ASP.NET的垃圾郵件過濾
- 23. 垃圾郵件過濾邏輯
- 24. C#垃圾郵件過濾建議
- 25. reCAPTCHA或反垃圾郵件過濾器?
- 26. ASP.NET垃圾郵件過濾器?
- 27. 開箱即用垃圾郵件過濾?
- 28. 論壇帖子的貝葉斯過濾
- 29. 什麼是垃圾郵件:撰寫垃圾郵件過濾器的一點
- 30. 計算B和| V |在樸素貝葉斯文本分類
谷歌的優勢在於,他們可以在收到郵件後將電子郵件從收件箱中取出。他們可以看到大量數據,當垃圾郵件發送者觸發Google的過濾器時,他們發送的以前的電子郵件也可以被刪除。在小型電子郵件服務器上這樣做很難。 – jcoffland 2016-03-16 02:11:42