WEKA使用SpamAssassin數據集使用stringtowordvector進行預處理

我目前正在使用樸素貝葉斯分類方法將電子郵件分類爲垃圾郵件或乾淨的項目。我正在使用WEKA和着名的SpamAssassin數據集。（數據集可以在這裏找到：http://www.csmining.org/index.php/spam-assassin-datasets.html）。WEKA使用SpamAssassin數據集使用stringtowordvector進行預處理

我對WEKA的經驗很少，但我被告知在預處理數據時使用了stringtowordvector過濾器。我很困惑如何做到這一點。有沒有人使用過SpamAssassin數據和WEKA？有沒有人有任何有用的鏈接來協助預處理？

使用以下教程Text Classification and Clustering with WEKA。您需要將文本數據更改爲數字向量，StringToWordVector過濾器完成此任務。

2013-04-21 21:26:21

回答