-5

假設我們使用兩種不同的聚類算法聚類一組N個數據點:k均值和高斯混合。在這兩種情況下,我們都獲得了5個聚類,在這兩種情況下聚類的中心都完全相同。在kmeans解決方案中分配給不同聚類的3個點可以分配到高斯混合解決方案中的同一個聚類嗎?如果不是,請解釋。如果是這樣,請畫一個例子或用1-2個句子解釋。機器學習聚類算法:k均值和高斯混合

+0

當然,它們可以根據數據和初始條件生成相同的羣集分配。 –

+1

這可能會在計算機科學堆棧上更好 –

+0

我投票結束這個問題作爲題外話,因爲它屬於另一個堆棧交換站點:https://cstheory.stackexchange.com/ – joce

回答

1

根據我對機器學習理論的理解,高斯混合模型(GMM)和K均值在基本設置上有所不同,K均值是硬聚類算法,而GMM是軟聚類算法。 K-Means將把每個點都分配給一個聚類,而GMM將給你一個概率分佈,以說明該點在5個聚類的每一箇中的歸屬概率。此外,這也取決於您用於GMM的參數種類。如果你使用一個常數方差,GMM可能會產生與K-Means有點類似的集羣。

現在,我不確定這是因爲您需要提供更多關於如何從GMM中挑選硬集羣的信息,以及您如何計算集羣中心。如果您只是根據具有最大可能性的羣集從GMM進行硬分配,那麼可能會將它們分配到相同的羣集。在我看來,這隻有在數據點容易分離且您的GMM假定不變的情況下才有可能。

就集羣中心而言,這取決於您計算它們的方式。如果您使用的是從GMM獲得的均值向量,那麼K-Means和GMM將給予您相同的聚類中心是非常不可能的。另一方面,如果您首先生成如上所述的硬集羣,然後自己計算中心,那麼當所有點的硬聚類在K均值和GMM中都相同時,它們可能具有相同的中心。

我認爲你應該提供更多關於你這樣做的信息,這樣社區成員才能更好地幫助你。此外,您還應該很好地識別您的用例,並決定是否需要硬聚類或軟聚類。只有在您希望進行軟聚類時和/或您事先相信您的數據點是根據每個羣集的高斯分佈生成的,才選擇GMM。