我即將開始一個項目,其中我的最終目標是將短文本分類爲「可能對訪問地點X感興趣」:「不感興趣或中立」。地點由一組關鍵字來描述(例如餐食或「中國食物」等里程類型)。因此,理想情況下,我需要一些方法來基於短文本分析對用戶的願望進行建模 - 然後根據願望得分或期望概率進行分類 - 此領域是否有最新的技術?謝謝短文本分類
Q
短文本分類
1
A
回答
5
這個問題和文本的情感分析完全一樣。但是,而不是傳統的二元分類,你似乎有一個「中立」的意見。情感分析領域的最新技術是高度依賴於領域的。例如,在分類電影方面表現出色的技術在商業產品上表現不佳。
此外,即使功能選擇是高度依賴於域的。例如,unigrams適用於電影評論分類,但unigrams和bigrams的組合對分類twitter文本表現更好。
我最好的建議是「玩」不同的功能。既然你正在看簡短的文字,推特可能是一個很好的激勵例子。我會以unigrams和bigrams作爲我的特色。確切的算法不是很重要。通過正確的參數調整,SVM通常表現非常好。在對較大的數據集進行實驗之前,使用少量的保留數據來調整這些參數。
這個問題更有趣的部分是排名! A「純度分數」最近已被用於此目的在以下文件(和我說,他們是相當先進的,最先進的):
- 感悟總結:評估和學習用戶的喜好。勒曼,布萊爾 - 戈爾登森和麥當勞。 EACL。 2009.
- 網絡派生的極性詞典的可行性。 Velikovich,Blair-Goldensohn,Hannan和McDonald。 NAACL。 2010.
相關問題
- 1. 文本分類:可擴展文本分類與多類文本分類
- 2. 文本分類分類器
- 3. CNN可以將短文分爲幾類?
- 4. 短文本,PHP
- 5. 縮短純文本文本
- 6. Woocommerce分類文本
- 7. nltk naivebayes分類器的文本分類
- 8. 文本分類分類指針
- 9. 將一個大的文本文件劃分爲短文件
- 10. 使用Weka + NaiveBayes分類器+文本分類進行分類
- 11. WEKA LibSVM文本分類器
- 12. 文本分類在Java中
- 13. 文本分類工具
- 14. 文本分類算法
- 15. weka的文本分類
- 16. MongoDB - 分類文本索引
- 17. 用於短文本分類的CNN在驗證集合中執行不良
- 18. 將文本分類爲多個類別
- 19. Xcode-UITextView文本被剪短
- 20. UITextView將縮短文本?
- 21. 正在縮短的文本
- 22. RegExp驗證短信文本
- 23. 如何有效地對短文本信息進行分類,不比性能較差的文本差
- 24. 使用StanfordNLP分類器進行分詞的文本分類器
- 25. WordPress短代碼添加分類屬性
- 26. R 800K文檔的文本分類
- 27. 與短信分享短信
- 28. C#:使用OR(短路版本)分配
- 29. 拆分文本有千絲萬縷的短語
- 30. 通過詞法分析確定文本短語的「情緒」