2013-03-19 78 views

回答

10

一個話題與一組文檔完全不同,畢竟話題不是由文檔組成的。

但是,這兩種技術確實有關。我認爲主題建模是決定相似文檔的可行方式,因此是文檔聚類的一種可行方式。

在將每個文檔表示爲主題分佈(實際上是一個向量)時,主題建模技術從出現的不同單詞的數量(在語料庫中)減少主題數量的特徵維度。文檔之間的相似性主題分佈可以使用餘弦度量和許多其他度量來計算,這些度量反映文檔本身在它們所涵蓋的主題/主題方面的相似性。基於這種量化的相似性度量,可以應用許多聚類算法來對文檔進行分組。

從這個意義上說,我認爲說主題建模是做文檔聚類的技術是正確的。

1

聚類與分類之間的關係與主題建模與多標籤分類之間的關係非常相似。

在單標籤多類分類中,我們爲每個文檔分配一個標籤。在集羣中,我們只將每個文檔放在一個組中。事實是,我們無法預先定義標籤,因爲我們定義標籤。如果我們忽視這個事實,分組和標籤本質上是相同的。

但是,在現實世界中,平面分類是不夠的。文檔通常與多個類別/類相關。因此我們利用多標籤分類。現在,我們可以將主題建模看作多標籤分類的無監督版本,因爲我們可以將每個文檔置於多個組/主題下。再次,我忽略了一個事實,即我們無法事先決定將哪些主題用作標籤。

相關問題