2012-04-23 64 views
1

我即將開始一個項目,其中我的最終目標是將短文本分類爲「可能對訪問地點X感興趣」:「不感興趣或中立」。地點由一組關鍵字來描述(例如餐食或「中國食物」等里程類型)。因此,理想情況下,我需要一些方法來基於短文本分析對用戶的願望進行建模 - 然後根據願望得分或期望概率進行分類 - 此領域是否有最新的技術?謝謝短文本分類

回答

5

這個問題和文本的情感分析完全一樣。但是,而不是傳統的二元分類,你似乎有一個「中立」的意見。情感分析領域的最新技術是高度依賴於領域的。例如,在分類電影方面表現出色的技術在商業產品上表現不佳。

此外,即使功能選擇是高度依賴於域的。例如,unigrams適用於電影評論分類,但unigrams和bigrams的組合對分類twitter文本表現更好。

我最好的建議是「玩」不同的功能。既然你正在看簡短的文字,推特可能是一個很好的激勵例子。我會以unigrams和bigrams作爲我的特色。確切的算法不是很重要。通過正確的參數調整,SVM通常表現非常好。在對較大的數據集進行實驗之前,使用少量的保留數據來調整這些參數。

這個問題更有趣的部分是排名! A「純度分數」最近已被用於此目的在以下文件(和我說,他們是相當先進的,最先進的):

  • 感悟總結:評估和學習用戶的喜好。勒曼,布萊爾 - 戈爾登森和麥當勞。 EACL。 2009.
  • 網絡派生的極性詞典的可行性。 Velikovich,Blair-Goldensohn,Hannan和McDonald。 NAACL。 2010.