k-means

-1熱度

2回答

我必須將我的人口聚類在8 clusters。我正在使用proc fastclus和k-means方法（以最小化羣集之間的差異）。觀察結果代表一個分數，所以即使在聚類過程之後，它們仍然是有序的。我注意到這樣： proc sort data=input.population; by score; run; proc fastclus data = input.population

-1熱度

1回答

如何處理K平均值算法中每個座標值的不同標度值？

我正在練習使用python的K-means。我正在處理一組購物數據，並且輸入數據集看起來像這樣。輸入表頭： [用戶ID] [money_spent_on_clothes]詮釋 [money_spent_on_food] INT [money_spent_on_shoes] INT [money_spent_on_Monday] INT [money_spent_on_Tuesday ] int

-5熱度

1回答

k-means的網格搜索

我有一個線性方程來聚集一些查詢，我想調整超參數。現在我想知道我可以使用「網格搜索」進行「k-means」聚類嗎？或者它不能用於k-means？在我的工作中，我將數據分成80-20比例，80％的數據用於訓練模型，20％用於測試。 TNX

0熱度

2回答

k-means使用Spark/Scala對geolocated數據進行聚類

如何使用k-means聚類算法在這裏處理geolocated數據，有人可以在這裏分享您的輸入，在此先感謝。 Project_2_Dataset.txt file entries look like this ================================================= 33.68947543 -117.5433083 37.88

0熱度

1回答

如何使用K-means算法發現異常/異常

我目前新機器學習，我將努力對涉及使用機器學習庫檢測以及可能的異常警報的項目。我將使用Apache Spark，並決定使用KMeans方法來解決該項目。主要項目包括在分析日常文件和檢測中的一些記錄，波動變化，並報告他們作爲可能的異常（如果它們被認爲是一個基於模型）。這些文件是在一天結束時生成的，我的程序需要在第二天早上檢查它們，看看是否有異常。但是，我需要檢查異常文件vs文件，而不是在文件中。這意

1熱度

1回答

使用scipy kmeans進行聚類分析

我想了解scipy.cluster.vq.kmeans。在2D空間中分佈有許多點，問題是將它們分組爲簇。這個問題引起了我的關注，讀取this question，我在想，scipy.cluster.vq.kmeans將要走。這是數據：使用下面的代碼，所述目的將是獲得每個25簇的中心點。 import numpy as np import matplotlib.pyplot as plt f

-2熱度

1回答

在K-Means算法（Apache Spark）中查找K的完美值

我正在研究一個涉及使用K均值模型進行異常檢測的項目。但是，要獲得精確的幾乎和精確的結果，我需要找到K. 我的算法依賴於在我的模型的異常值一般由自己放置在羣集上的想法的最佳值。通常，「正常」數據將與其他正常數據聚集在一起，但異常數據會形成它們自己的聚類，因此表明存在異常。但是，我需要找到K的最佳值，以便我的算法能夠正常工作，並查看它是否合適。關於如何找到一個好的K值的任何想法？這是「正常的」虛

0熱度

1回答

庫（clValid） - 要集羣的項目數大於「maxitems」

每當我打電話：出現 library(clValid) clValid(da_mat, nClust = 2:6,clMethods = "kmeans",method = "ward", validation = "internal",verbose = F,metric = "euclidean") 以下問題：要集羣的項目數大於'maxitems' 所需的存儲空間和時間可能過多，您是否希

1熱度

1回答

三維sklearn K-means聚類

我想要使用緯度/經度作爲X/Y軸和DaysUntilDueDate作爲我的Z軸羣集數據。我還想保留索引列（'PM'），以便以後可以使用此聚類分析創建計劃。我發現here的教程非常棒，但我不知道它是否考慮了Z軸，而且我的四周沒有導致任何錯誤。我想在代碼中重要的一點是iloc位此行的參數： kmeans_model = KMeans(n_clusters=k, random_state=1).fit(

3熱度

1回答

如何找到有意義的單詞來表示從word2vec向量中導出的每個k-均值聚類？

我在Python中使用了gensim包來加載預先訓練好的Google word2vec數據集。然後我想用k-means在我的單詞向量上找到有意義的集羣，並找到每個集羣的代表性單詞。我正在考慮使用相應向量與集羣質心最接近的詞來表示該集羣，但不知道這是否是一個好主意，因爲我的實驗沒有給出好的結果。我的示例代碼是象下面這樣： import gensim import numpy as np imp