2010-07-22 96 views
5

我一直對Gmail垃圾郵件過濾器的高質量感到驚訝。去年,它過濾了99.95%的垃圾郵件,並且由於錯誤的郵件而被阻止。相比之下,我使用的任何其他郵件服務每50封郵件至少犯一次錯誤。Gmail垃圾郵件過濾器如何工作?

Gmail在內部如何達到這個質量水平?它是基於客戶的反饋(例如,如果N客戶將郵件攔截爲垃圾郵件,則將其作爲垃圾郵件分類給其他每個客戶)?或者有一些竅門?也許一個基本的過濾器算法過濾最明顯的垃圾郵件,一些困難的情況是由真人分析?

+4

哈哈哈。那很好笑。詢問我們如何使用Google專有的商業祕密算法。爲什麼不問他們? – 2010-07-22 19:48:44

回答

8

簡而言之,這是基於社區反饋。以下是官方解釋引用:

Gmail用戶在防止垃圾郵件從數百萬收件箱中發揮重要作用。當Gmail社區用點擊投票將特定電子郵件報告爲垃圾郵件時,我們的系統會很快學會開始阻止類似的郵件。社區標示的垃圾郵件越多,我們的系統變得越聰明。

你可以在他們的Spam Explained頁面閱讀更多關於它的信息。

7

這是百萬美元的問題,如果它能夠在stackOverflow上得到解答,那麼每個垃圾郵件過濾器都會有效。

+0

這並不明顯。就像我說的,也許谷歌僱用人類來過濾困難的案例,或者過濾器是基於用戶的反饋。在這種情況下,是的,每個可能僱傭人員做這些事情或者依靠一個大型社區的人都可以製作出有效的垃圾郵件過濾器。 – 2010-07-22 19:48:35

+0

不,這不會,因爲他們的垃圾郵件過濾器的高質量是因爲他們擁有大量的數據。參見Peter Norvig的演講「數據的不合理有效性」 – Wes 2014-02-09 18:20:16

2

我真的不知道Google做了多少垃圾郵件過濾(但我認爲這畢竟是商業祕密)。如果您對垃圾郵件過濾的工作方式感興趣,我建議您查看貝葉斯垃圾郵件過濾(http://en.wikipedia.org/wiki/Bayesian_spam_filtering)。這是一個相當容易理解的方法。

-1

谷歌最有可能使用分類系統,如Logistic迴歸或神經網絡。現有技術的垃圾郵件檢測經常採用諸如這些的機器學習算法。

輸出分類是「垃圾郵件」或「非垃圾郵件」,我敢肯定,這些輸入在谷歌是絕密的,但我確定某些電子郵件文本短語如「立即購買」,「開銷售「,」偉哥「或」男性增強「都是他們模型中的因素。哈哈哈。

相關問題