2016-01-06 107 views
-1

我目前正在使用python包sklearn.cluster對3D座標點進行集羣分析。尋求作爲集羣中某一點的集羣中心

我已經使用了K均值聚類,它輸出一個計算出的聚類中心。我真正想要的是該羣集的數據點與該羣集中所有其他數據點的最小距離。我猜這在我的數據集中最接近集羣中心,但由於我的數據集很大,使用某種最小化搜索算法並不實際。任何其他聚類方法或其他Python腳本的建議可以幫助我找到它?

回答

1

找到離中心最近的一對只有O(n),所以便宜,因爲k-means的一次迭代 - 不算太糟糕。

這是比平均值,但你最好的猜測。

注意:它有不是最小的平均距離(歐幾里得)。

平均值是最小平方最佳值,它具有最小平方偏差(即平方歐幾里得)。

這是平均值和中位數之間的差值。 中位數是最中心的數據點;不是那個意思。但找到中位數比計算平均值要昂貴得多。

應該不難證明最接近均值的點將具有所有數據點的最小平方偏差(嘗試顯示具有更小RMSD的點必須更接近)。