意見收集中的前m個主題

我收集了意見，每個意見討論了一個主題。我想找出這些評論中討論的前m個主題。此外，我以在線方式接收這些評論（即，我沒有一次性收到全部評論，而是必須逐一處理這些評論）。我想過使用Word2Vec進行特徵提取，然後應用一些聚類算法，如k-means（聚類將對應於一個主題），然後我可以從頂部的m個聚類（它們中的點數最多）得到答案。但問題是，我不知道羣集的數量，並且在任何時間點，不同主題（羣集）的數量並不是固定的，因爲新的評論可能會討論一個新的話題（所以，這個問題不能通過應用具有不同k值的k-均值來解決）。那麼，我是否應該使用其他一些聚類算法（如DBSCAN）以及在這種情況下應該採取什麼方法，還是應該使用完全不同的方法？意見收集中的前m個主題

來源

2017-05-30 Gurtej Sohi

爲什麼你不能嘗試一些簡單的LDA，並開始大量的話題，然後縮小它？ https://radimrehurek.com/gensim/models/ldamodel.html

類似的說明，他們使用reddit的意見，建立主題模型，你可以看看sense2vec https://explosion.ai/blog/sense2vec-with-spacy

來源

2017-05-30 20:57:53 Shrikar

意見收集中的前m個主題

回答

相關問題