2017-08-25 93 views
0

我目前正在進行情緒分析項目,第一次將使用推文作爲輸入。這些推文的主題是體育,目前我正在預處理數據並試圖爲它們分配極性。通過將這些情感計數的許多不同的方式是混淆了我一點,因此我有一些問題:問:情緒分析:鳴叫極性不太受歡迎的科目

  1. 這個線程(Training data for sentiment analysis)列表中的一些語料庫,但他們都不適用於運動。我可以使用其中之一來訓練適用於我的病例的分類器嗎?或者是否會使用不相關的語料庫來歪曲結果?

  2. 依靠這個主題的詞典(例如上面的鏈接)能夠取得好的結果嗎?

  3. 我應該查詢我的數據庫並手動註釋推文以訓練分類器嗎?

感謝

回答

0
  1. 一般情感分析將始終使用通用語料庫,因爲有些領域有專門語言不會被佔的影響。但是,它可能不會顯着影響您的結果,因爲像badgreat這樣的字會嚴重偏振,而不考慮您的域名區域。

  2. 是的,但是如果您正在實施一個產品,您希望創建/找到更適合您的目標域語言語料庫的語料庫,並確保結果在統計學上不存在顯着差異。

  3. 不是嗎?如果你發現一個重量與語言相關的語料庫,你可以在這個語料上訓練一個分類器。否則,你將不得不自己確定重量。