2011-12-20 84 views
2

我使用樸素貝葉斯分類器進行客戶支持的情感分析。但不幸的是,我在客戶支持領域沒有大量的註釋數據集。但是我在同一個域中有少量的註釋數據(大約100個正數和100個負數)。我也有亞馬遜產品評論數據集。Apache Mahout中的加權樸素貝葉斯分類器

是否有反正我可以使用mahout實現加權樸素貝葉斯分類器,這樣我就可以給予亞馬遜產品評論數據的一小部分客戶支持數據和小重量更多的權重。對上述加權數據集的訓練將大大提高我猜測的準確性。請幫助我一樣。

回答

1

一個非常簡單的方法是過採樣。即多次重複培訓數據中的客戶支持示例。

雖然這不是同一個問題,但你可以通過研究類不平衡的方法來獲得更多的想法;特別是過採樣(如上所述)和欠採樣。

+0

我只是嘗試了類似的東西。使用小型訓練數據對樣本數據集進行分類,隨機交叉檢查,然後將其添加到訓練集中。 – Greenhorn 2011-12-28 09:23:26