2017-04-18 126 views
0

我正在尋找執行審查網站的Naive Byes分類器以識別垃圾評論並且有幾個問題。多個樸素貝葉斯分類器

  1. 它有多種類型的垃圾郵件,如直接營銷垃圾與無關,他們正在評估的東西,對欺騙性的審查發生在我身上。爲不同的目的實施多個分類器是明智的做法,這樣才能更好地檢測一般的垃圾郵件,而另一方則瞭解欺騙性評論?

  2. 在一個類似的徒勞,有多個類別的項目正在審查,所以對於「欺騙性審查」分類器,最好是隻有一個分類器,試圖從所有評論學習?或者是否最好每個類別都有一個分類器,以便它能夠在這些類別中學習細微差別?

我知道這些不會是傻瓜證明,它只是關於標記潛在的檢查手動檢查,但我只是不清楚最好的設置。

回答

0

只要你使用任何足夠複雜的算法,你應該能夠用任何一種方法來區分「好」與「壞」數據。如果你用一個模型完成所有工作,你只需要增加模型的大小,這樣綜合模型就可以建立(最壞的情況下)兩條決策的獨立路徑,即「垃圾郵件」和「欺騙」。

如果您在三個不同的分類上進行培訓:良好,垃圾郵件和欺騙性;那麼你無論如何都做得很好。但是,請注意,您的模型尺寸在單獨訓練時較小,並且您的訓練時間會縮短,因爲在路上的猜測數量會減少。另一方面,使用兩個模型用於以後的實際使用可能會減慢檢測速度,因爲通過第一個模型的每個輸出都必須通過第二個模型。對於大多數應用來說,這次不是一個重要的因素。

最重要的是,我會從每個班的單獨模型開始:任何實施和培訓問題都會更快找到並更容易分離。