2008-12-12 91 views
7

過濾垃圾郵件的樸素貝葉斯過濾效果如何?樸素貝葉斯垃圾郵件過濾效果

我聽說垃圾郵件發送者通過填充額外的非垃圾郵件相關詞語,很容易繞過他們。您可以使用哪些編程技術與貝葉斯過濾器來防止這種情況發生?

回答

7

保羅格雷厄姆是真正介紹了在2002年8月用他的原始文章A Plan for Spam在網上廣泛使用貝葉斯垃圾郵件過濾這個想法的人。然後,his follow-up一年左右後,很快就引入了許多問題,出現了。這些在這個話題上仍然非常棒。

在第二篇文章中,格雷厄姆提到使用CRM114,它的工作方式比空格分隔的單詞要寬得多。 CRM114很酷,但沒有太多垃圾郵件過濾系統的實施幫助。

有開源的powertools用於貝葉斯垃圾郵件過濾,如Death2SpamSpamProbe

我發現沒有什麼作品像通過Gmail帳戶過濾郵件。快樂狩獵。

+0

谷歌的優勢在於,他們可以在收到郵件後將電子郵件從收件箱中取出。他們可以看到大量數據,當垃圾郵件發送者觸發Google的過濾器時,他們發送的以前的電子郵件也可以被刪除。在小型電子郵件服務器上這樣做很難。 – jcoffland 2016-03-16 02:11:42

5

我認爲爲了打敗你提到的那種垃圾郵件攻擊,重要的不是學習方法,而是你訓練的功能。我使用Fidelis Assis的OSBF-Lua這是一個非常成功的過濾器:它不斷贏得垃圾郵件過濾器競賽。它採用貝葉斯學習,但我認爲其成功的真正原因是三個原則:

  • 它訓練不是單一的話,但對稀疏二元語法:一對由0〜4「分隔的單詞不關懷「的話。垃圾郵件發送者必須將他們的消息放在的某處,而稀疏的bigrams非常擅長將它們排除在外。它甚至發現附帶垃圾郵件!

  • 它對郵件標題做了額外的培訓,因爲這些對於垃圾郵件製造者來說很難僞裝。例如:源自您的網絡且永遠不會通過離網中繼主機的消息可能不是垃圾郵件。

  • 如果垃圾郵件過濾器對其分類的置信度較低,則會請求來自人的輸入。 (實際上,它增加了一個標題字段,表示「請在此消息上訓練我」;人可以忽略該請求)。這意味着,隨着垃圾郵件發送者逐漸發展新技術,您的過濾器將發展爲匹配。

這種技術的組合非常有效。

免責聲明:我與菲德利斯上重構了一些軟件,使其可以用於其他用途,如普通郵件分成組或可能一個整天來檢測在博客評論和其他地方的垃圾郵件的工作。

1

我使用Popfile不僅可以分類垃圾郵件,還可以將我的電子郵件分類,我發現它非常有效。它使用樸素貝葉斯過濾器。