我想了解scipy.cluster.vq.kmeans
。使用scipy kmeans進行聚類分析
在2D空間中分佈有許多點,問題是將它們分組爲簇。這個問題引起了我的關注,讀取this question,我在想,scipy.cluster.vq.kmeans
將要走。
使用下面的代碼,所述目的將是獲得每個25簇的中心點。
import numpy as np
import matplotlib.pyplot as plt
from scipy.cluster.vq import vq, kmeans, whiten
pos = np.arange(0,20,4)
scale = 0.4
size = 50
x = np.array([np.random.normal(i,scale,size*len(pos)) for i in pos]).flatten()
y = np.array([np.array([np.random.normal(i,scale,size) for i in pos]) for j in pos]).flatten()
plt.scatter(x,y, s=16, alpha=0.4)
#perform clustering with scipy.cluster.vq.kmeans
features = np.c_[x,y]
# take raw data to cluster
clusters = kmeans(features,25)
p = clusters[0]
plt.scatter(p[:,0],p[:,1], s=81, c="crimson")
# perform whitening (normalization to std) first
whitened = whiten(features)
clustersw = kmeans(whitened,25)
q = clustersw[0]*features.std(axis=0)
plt.scatter(q[:,0],q[:,1], s=25, c="gold")
plt.show()
紅點標記聚類中心的位置,而美白,黃色點正在使用那些具有美白。雖然它們不同,但主要問題在於它們顯然不是全部在正確的位置。因爲這些簇很好地分離,所以我很難理解爲什麼這個簡單的簇會失敗。
我看了this question哪個報告關於kmeans
沒有給出準確的結果,但答案並不令人滿意。建議的使用kmeans2
與minit='points'
的解決方案也不起作用;即kmeans2(features,25, minit='points')
給出了與上述相似的結果。
所以問題是,有沒有辦法用scipy.cluster.vq.kmeans
執行這個簡單的聚類問題?如果是這樣,我將如何確保獲得正確的結果。
我只是在做同樣的事情(受同一問題的啓發)。通過對'kmeans'的'iter'參數使用較大的值,我得到了更可靠的結果,並且高達'iter = 800'。是的,這讓它變慢。 –
真的嗎?使用'iter = 800'我大致相同; [image here](https://i.stack.imgur.com/SqKmp.png)。 – ImportanceOfBeingErnest
我的羣集與您的羣集有很高的差異。當我收緊集羣時,我不得不更加激動。我剛剛跑了一個'iter = 2000'不夠的例子,但是iter = 10000'找到了預期的中心。 (我並不是說這是一個很好的解決方案,我只是在研究如何讓kmeans工作。) –