0

我收集了意見,每個意見討論了一個主題。我想找出這些評論中討論的前m個主題。此外,我以在線方式接收這些評論(即,我沒有一次性收到全部評論,而是必須逐一處理這些評論)。我想過使用Word2Vec進行特徵提取,然後應用一些聚類算法,如k-means(聚類將對應於一個主題),然後我可以從頂部的m個聚類(它們中的點數最多)得到答案。但問題是,我不知道羣集的數量,並且在任何時間點,不同主題(羣集)的數量並不是固定的,因爲新的評論可能會討論一個新的話題(所以,這個問題不能通過應用具有不同k值的k-均值來解決)。那麼,我是否應該使用其他一些聚類算法(如DBSCAN)以及在這種情況下應該採取什麼方法,還是應該使用完全不同的方法?意見收集中的前m個主題

回答