2011-01-22 75 views
1

我想寫基於神經網絡的反垃圾郵件。任何人都可以建議我使用什麼類型的神經網絡(Kohonen或其他)以及在神經元中輸入什麼:字符,單詞或所有內容?基於神經網絡的反垃圾郵件建議

+0

如果這是業務,那麼你可以簡單地使用akismet服務。 – cherouvim 2011-01-22 08:51:02

回答

2

雖然您選擇的神經網絡類型可能會在性能上有所不同,但事先並不知道哪種方法最好。假設你可以用於分類的神經網絡,那麼我認爲它不會產生巨大的差異,所以你可能想要選擇最常用的品種,多層感知器(MLP)。

創造性地開發描述性功能,並發現它們的組合最大化性能是戰鬥的一半。通常饋給垃圾郵件檢測系統的一種輸入格式是「單詞包」,其基本上是給定消息中存在的所有非平凡詞的列表。這可能很難與神經網絡一起使用,因爲數值相當於一串0/1虛擬變量。另一種可能性是對郵件中的單詞進行預處理,以便計算垃圾郵件中經常出現的單詞數量,以及更多出現在非垃圾郵件中的單詞數量。基本信息統計也可能有幫助,例如平均字長,平均句子長度,不同單詞的計數等。

1

創建一個單詞列表(使用示例文本字統計) 爲目標單詞列表創建一個直方圖文本 正常化和使用此直方圖作爲輸入 輸出垃圾或不(所以這是簡單的分類)