機器學習聚類算法：k均值和高斯混合

-5

假設我們使用兩種不同的聚類算法聚類一組N個數據點：k均值和高斯混合。在這兩種情況下，我們都獲得了5個聚類，在這兩種情況下聚類的中心都完全相同。在kmeans解決方案中分配給不同聚類的3個點可以分配到高斯混合解決方案中的同一個聚類嗎？如果不是，請解釋。如果是這樣，請畫一個例子或用1-2個句子解釋。機器學習聚類算法：k均值和高斯混合

來源

2015-12-11 Anom

當然，它們可以根據數據和初始條件生成相同的羣集分配。 –

這可能會在計算機科學堆棧上更好 –

我投票結束這個問題作爲題外話，因爲它屬於另一個堆棧交換站點：https：//cstheory.stackexchange.com/ – joce

根據我對機器學習理論的理解，高斯混合模型（GMM）和K均值在基本設置上有所不同，K均值是硬聚類算法，而GMM是軟聚類算法。 K-Means將把每個點都分配給一個聚類，而GMM將給你一個概率分佈，以說明該點在5個聚類的每一箇中的歸屬概率。此外，這也取決於您用於GMM的參數種類。如果你使用一個常數方差，GMM可能會產生與K-Means有點類似的集羣。

現在，我不確定這是因爲您需要提供更多關於如何從GMM中挑選硬集羣的信息，以及您如何計算集羣中心。如果您只是根據具有最大可能性的羣集從GMM進行硬分配，那麼可能會將它們分配到相同的羣集。在我看來，這隻有在數據點容易分離且您的GMM假定不變的情況下才有可能。

就集羣中心而言，這取決於您計算它們的方式。如果您使用的是從GMM獲得的均值向量，那麼K-Means和GMM將給予您相同的聚類中心是非常不可能的。另一方面，如果您首先生成如上所述的硬集羣，然後自己計算中心，那麼當所有點的硬聚類在K均值和GMM中都相同時，它們可能具有相同的中心。

我認爲你應該提供更多關於你這樣做的信息，這樣社區成員才能更好地幫助你。此外，您還應該很好地識別您的用例，並決定是否需要硬聚類或軟聚類。只有在您希望進行軟聚類時和/或您事先相信您的數據點是根據每個羣集的高斯分佈生成的，才選擇GMM。

來源

2015-12-12 09:36:40

機器學習聚類算法：k均值和高斯混合

回答

相關問題