2009-06-15 82 views
6

我期望將短小的短語應用分數(正面,負面或中性)。根據他們的使用情況,沒有解析出表情符號和做出假設,我不確定還有什麼可以嘗試的。任何人都可以提供例子,研究論文,文章等,對這個問題進行更多的詞彙分析。通過詞法分析確定文本短語的「情緒」

我在思考諸如副詞用法,標點誤用/重複,拼寫/語法錯誤等都可能是作者情緒幾乎二元意義上的正確指標(好或壞)。

+0

還有一個類似的問題:http://stackoverflow.com/questions/933212/is-it-possible-to-guess-a-users-mood-based-on-the-structure-of-text – Helen 2009-06-15 15:50:12

回答

3

這聽起來像一個非常明顯的二元分類任務,您可以將問題簡化爲正面或負面,然後通過概率質量集設置爲最大熵決策或未達到確定性閾值的決策中性。

您最大的障礙將是獲取隨機機器學習方法的訓練數據。您可以使用容易獲得的最大熵模型(如Toolkit for Advanced Discriminative ModelingMallet)輕鬆做到這一點。您描述的功能只需格式化爲這些模型使用的輸入。

爲了獲得培訓數據,您可以進行一些付費衆包,比如亞馬遜的Mechanical Turk,或者只是自己做,也許在朋友的幫助下完成。你需要一個lot的數據。鑑於數據缺乏,您可以利用主動學習,合奏或提升等方法來提高模型的預測能力,但重要的是要儘可能最好地根據實際數據對這些數據進行測試,並選擇最適合您的模型實際應用。

如果您正在爲此尋找相關文章,那麼您需要查看Google學術搜索中的術語「情感分析」。 The Association for Computational Linguistics有許多來自會議和期刊的免費和有用的論文,從語言和算法的角度來解決這個問題。我也會瀏覽他們的檔案。祝你好運!

0

這聽起來像是一個非常有趣的想法 - 我很想看看它來自哪裏。

我想說的是標點符號是一個指標,你可以使用...

  • - 問題
  • !?!?(或某些變體)不相信
  • 與像愚蠢的,愚蠢的,等等短語... - 憤怒
  • ... - 猶豫,嘲諷

您也可以嘗試拿起像常用縮寫...

  • LOL - 笑(正)
  • WTF,OMG - 懷疑,震盪
  • IMO - 思考,解釋

這顯然是你希望做一個非常複雜的事情,但它聽起來很有趣。

2

那麼,latent semantic analysis(也有paper)似乎是最近完善的探究領域,你正在談論什麼。它不太「價值導向」,更側重於大型文檔,但仍可能與您的問題有一定關係。