主題建模標識文檔集合中主題的分佈,可有效識別集合中的集羣。所以說主題建模是一種文檔聚類的技術是正確的嗎?主題建模和文檔聚類之間的關係是什麼?
8
A
回答
10
一個話題與一組文檔完全不同,畢竟話題不是由文檔組成的。
但是,這兩種技術確實有關。我認爲主題建模是決定相似文檔的可行方式,因此是文檔聚類的一種可行方式。
在將每個文檔表示爲主題分佈(實際上是一個向量)時,主題建模技術從出現的不同單詞的數量(在語料庫中)減少主題數量的特徵維度。文檔之間的相似性主題分佈可以使用餘弦度量和許多其他度量來計算,這些度量反映文檔本身在它們所涵蓋的主題/主題方面的相似性。基於這種量化的相似性度量,可以應用許多聚類算法來對文檔進行分組。
從這個意義上說,我認爲說主題建模是做文檔聚類的技術是正確的。
1
聚類與分類之間的關係與主題建模與多標籤分類之間的關係非常相似。
在單標籤多類分類中,我們爲每個文檔分配一個標籤。在集羣中,我們只將每個文檔放在一個組中。事實是,我們無法預先定義標籤,因爲我們定義標籤。如果我們忽視這個事實,分組和標籤本質上是相同的。
但是,在現實世界中,平面分類是不夠的。文檔通常與多個類別/類相關。因此我們利用多標籤分類。現在,我們可以將主題建模看作多標籤分類的無監督版本,因爲我們可以將每個文檔置於多個組/主題下。再次,我忽略了一個事實,即我們無法事先決定將哪些主題用作標籤。
相關問題
- 1. JSDoc:模塊和名稱空間之間的關係是什麼
- 2. C++和Ruby之間的關係和依賴關係是什麼?
- 3. Blaze視圖和模板之間的關係是什麼?
- 4. 在關係數據建模和文檔數據建模之間掙扎
- 5. 拆箱類型和嚴格性之間的關係是什麼?
- 6. ruby類和具有相同名稱的模塊之間的關係是什麼?
- 7. 用於分類和聚類的特徵之間的關係
- 8. 各種Android OpenGL相關類之間的關係是什麼?
- 9. Rails建模問題 - 關係和主鍵
- 10. SpriteKit模板中的GameScene.swift和GameScene.sks文件之間的關係是什麼
- 11. dup()和close()系統調用之間的關係是什麼?
- 12. 如何建模兩個聚合根之間的關係
- 13. using關鍵字和IDisposable接口之間的關係是什麼?
- 14. JLS,Java和相關技術之間的關係是什麼?
- 15. 負載和響應時間之間的關係是什麼?
- 16. tsconfig.json和gulp.js之間有什麼關係?
- 17. MariaDB和MySQL之間有什麼關係?
- 18. '@ 1'和'@ 2'之間有什麼關係
- 19. __getattr__和getattr之間有什麼關係?
- 20. PyTorch和Torch之間有什麼關係?
- 21. STL和stdlib之間有什麼關係
- 22. IRimTable和PersistenceStore之間有什麼關係?
- 23. seneca和redis之間有什麼關係
- 24. Tensorflow:.ckpt文件和.ckpt.meta和.ckpt.index和.pb文件之間的關係是什麼
- 25. MIDP和JME(和Android)之間的關係是什麼?
- 26. uniform sampler2D和GL_TEXTURE [NUM]和glGenTexture之間的關係是什麼?
- 27. 聚集主鍵和關係
- 28. wpf模板樣式usercontroles之間的關係是什麼?
- 29. Windows Phone的XNA和XNA之間的關係是什麼?
- 30. virtualenvwrapper中的環境和項目之間的關係是什麼?