2014-11-23 267 views
0

我正在尋找一種方法來開發一個比較正面和負面詞彙的ML數據集。例如,「有效」vs「無效」或「可以使用」vs「不能使用」或「不在週四」vs「週四」將是正面vs負面。可以通過確定副詞是肯定還是否定來簡化。我想知道是否有任何可用的數據集或任何現有的解決方案。機器學習數據集 - 負面與正面詞彙數據集

回答

0

創建數據集

尋找有關某些觀點的爭論的文章。在那裏,你會得到大部分積極和消極的句子。在開始時,選擇小段落。手動檢查算法的效率。

解決方案

從非常基本的方法開始。像搜索關鍵字一樣,「不」。然後去結合「不能」,「不會」等。然後檢查你是否錯過任何東西。

現在你可以去更復雜的方法。就像「我採取了防備措施,它不會傷害我」。它給了積極的意義。你應該找的東西是「不會傷害」。你看,不會是消極的話,傷害也是消極的話。將兩者結合起來會產生積極效果