k-means

1熱度

1回答

我訓練AK意味着我的數據集模型，現在我想獲得從每個集羣的幾個要素與集羣ID val clusters = KMeans.train(data, numClusters, numIterations) val vectorsAndClusterIdx = data.map{ point => val prediction = clusters.predict(point) (

2熱度

1回答

如何將元素添加到另一個列表中的列表？

該代碼找到每個列表中的最小項目，我想將該數據點添加到基於它所來自的列表的列表中。我也希望能夠找到每個羣集的均值。 import numpy as np centroids = np.array([[3,44],[5,15],[99,12]]) dataPoints = np.array([[2,4],[17,4],[45,2],[45,7],[16,32],[32,14],[20,56],

0熱度

1回答

如何在OpenIMAJ庫中設置KMColourSegmenter的初始質心？

我想測量OpenIMAJ庫中KMColourSegmenter執行聚類所用的時間。如果我沒有使初始質心固定，而不是隨機的，我不能使測量的性能;因爲它每次都會改變，給出不同數量的迭代，並且在執行聚類時會有所不同。那麼如何使初始質心固定即手動設置？更新： @喬恩感謝您的回答，我想實現你說的話。你能檢查它，特別是「簇」數組我認爲這個數組沒有意義初始化。請糾正我，如果我錯了。 public clas

0熱度

1回答

R中的K均值聚類

我是R中的初學者，我在K均值聚類上跟隨this tutorial。但是，我試圖在真實數據上運行此算法。我選擇：http://exoplanet.eu/catalog/ 我已經加載的數據： d <- read.csv2( "exoplanet.eu_catalog.csv", header = TRUE, sep = "," ) 有了這個代碼： plot(

1熱度

1回答

圖像壓縮中的K均值numpy錯誤

我一直在嘗試使用像素作爲數據來實現圖像壓縮的k均值，k作爲質心數量。我不斷收到一個錯誤：IndexError: invalid index to scalar variable.;在if assignment[i] == j:的比較聲明中。我決定首先計算初始質心，然後用它將數據點聚類到正確的質心。然後使用賦值變量重新計算質心到argmin中。我的代碼： def mykmeans(pixels,

1熱度

1回答

factoextra軟件包：如何使用可變軸而非PCA組件軸繪製我的集羣？

library(cluster) km.res <- kmeans(my_data, 4, nstart = 25) # Visualize library("factoextra") fviz_cluster(km.res, data = my_data, frame.type = "convex")+ theme_minimal() 我想

0熱度

1回答

Python：加載kmeans訓練數據集並使用它來預測新的數據集

我有大量的數據，我想運行kmean分類。數據集非常大，我無法將文件加載到內存中。我的想法是像訓練數據集一樣在數據集的某些部分上運行分類，然後逐個部分地將數據集應用到數據集的其餘部分。 import pandas as pd import pickle from sklearn.cluster import KMeans frames = [pd.read_hdf(fin) for fin

0熱度

2回答

K的數據輸入意味着用Scipy，Python進行聚類？

我有一個具有兩個屬性的點數據集，我想根據屬性值對這些點進行聚類。我想使用K均值聚類，但我不確定使用Scipy實現時我的輸入數據應該如何。例如，我應該製作一個numpy數組，每行包含：FID，屬性1，屬性2，x-coord，y-coord或僅包含屬性值的數組？屬性是整數和浮點數。

-1熱度

1回答

我想通過使用Jaccard索引（從sklearn.metrics導入jaccard_similarity_score）計算通過使用KMeans生成的集羣之間的相似性。這些可能是一個包含特定值的矩陣：在[i，j]應該是羣集i和j之間的相似度。我現在代碼： from sklearn import datasets from sklearn.cluster import KMeans from sk

0熱度

1回答

我可以在rapidminer中使用k-means嗎？

我可以在rapidminer中使用k-means來集羣8000包含8000圖像標籤的文本文件嗎？並且如果可能的話，應該選擇什麼是合適的K和max運行？