短文本分類

我即將開始一個項目，其中我的最終目標是將短文本分類爲「可能對訪問地點X感興趣」：「不感興趣或中立」。地點由一組關鍵字來描述（例如餐食或「中國食物」等里程類型）。因此，理想情況下，我需要一些方法來基於短文本分析對用戶的願望進行建模 - 然後根據願望得分或期望概率進行分類 - 此領域是否有最新的技術？謝謝短文本分類

來源

2012-04-23 Kamil Czarnogorski

這個問題和文本的情感分析完全一樣。但是，而不是傳統的二元分類，你似乎有一個「中立」的意見。情感分析領域的最新技術是高度依賴於領域的。例如，在分類電影方面表現出色的技術在商業產品上表現不佳。

此外，即使功能選擇是高度依賴於域的。例如，unigrams適用於電影評論分類，但unigrams和bigrams的組合對分類twitter文本表現更好。

我最好的建議是「玩」不同的功能。既然你正在看簡短的文字，推特可能是一個很好的激勵例子。我會以unigrams和bigrams作爲我的特色。確切的算法不是很重要。通過正確的參數調整，SVM通常表現非常好。在對較大的數據集進行實驗之前，使用少量的保留數據來調整這些參數。

這個問題更有趣的部分是排名！ A「純度分數」最近已被用於此目的在以下文件（和我說，他們是相當先進的，最先進的）：

感悟總結：評估和學習用戶的喜好。勒曼，布萊爾 - 戈爾登森和麥當勞。 EACL。 2009.
網絡派生的極性詞典的可行性。 Velikovich，Blair-Goldensohn，Hannan和McDonald。 NAACL。 2010.

來源

2012-04-23 16:40:14

回答

相關問題