我收集了意見,每個意見討論了一個主題。我想找出這些評論中討論的前m個主題。此外,我以在線方式接收這些評論(即,我沒有一次性收到全部評論,而是必須逐一處理這些評論)。我想過使用Word2Vec進行特徵提取,然後應用一些聚類算法,如k-means(聚類將對應於一個主題),然後我可以從頂部的m個聚類(它們中的點數最多)得到答案。但問題是,我不知道羣集的數量,並且在任何時間點,不同主題(羣集)的數量並不是固定的,因爲新的評論可能會討論一個新的話題(所以,這個問題不能通過應用具有不同k值的k-均值來解決)。那麼,我是否應該使用其他一些聚類算法(如DBSCAN)以及在這種情況下應該採取什麼方法,還是應該使用完全不同的方法?意見收集中的前m個主題
0
A
回答
1
爲什麼你不能嘗試一些簡單的LDA,並開始大量的話題,然後縮小它? https://radimrehurek.com/gensim/models/ldamodel.html
類似的說明,他們使用reddit的意見,建立主題模型,你可以看看sense2vec https://explosion.ai/blog/sense2vec-with-spacy
相關問題
- 1. 是SerializableWrappers收集一個壞主意?
- 2. PHP的Drupal的意見主題
- 3. 哪裏存儲主題的意見?
- 4. 收藏意見:不適合
- 5. 胸部的意見集合
- 6. 回收在一個列表視圖中的意見,值得嗎?
- 7. 收集分析數據的更好主意/數據結構
- 8. 引導:主題錯誤 - 不產生正確的意見
- 9. 在Visual Studio 2010中收集好的C++主題?
- 10. 如何從1 M個文件收集中收集獨特的單詞及其頻率?
- 11. 在上傳之前清除WordPress中的惡意主題
- 12. com。前綴在Android應用的意見
- 13. 更新意見問題
- 14. ActiveMQ持久主題連接設計意見購買
- 15. 一個文件的意見
- 16. 意見和主持人directorys結構。
- 17. 意見,實體,無法推斷主鍵
- 18. Drools 5.1.1意外收集和收集行爲
- 19. 集團的意見由同一個條目,按日期
- 20. 如何使用python收集關於給定主題的信息?
- 21. 與JSON文件的意見JQ問題
- 22. eclipse有意見問題的工作?
- 23. 三重嵌套問題的意見
- 24. IE 8 css的意見問題
- 25. Backbone.js性能問題。太多的意見?
- 26. Java:通過引用收集集合的任意集合
- 27. Jira:通過電子郵件創建問題和意見,無主題
- 28. 意見的Android
- 29. 的意見
- 30. Funambol的意見