k-means

    3熱度

    1回答

    我對sklearn(和python一般)非常陌生,但需要在涉及的某個項目上工作,其中包含超過10k個樣本。對於k = 4的少於100個樣本的測試數據集,使用以下代碼,聚類按預期進行。然而,當我開始使用多於100個樣品,則6/8質心似乎在原點(0,0)即它未能產生羣集重複。任何可能出錯的建議? 截圖: 86 Samples, 150 samples 代碼: data = pd.read_csv('p

    0熱度

    1回答

    我想要做一個小閃亮的Kmeans練習,我下載一個csv文件並在其上運行kmeans(忽略任何所需的預處理步驟)---獲取羣集,我想附加這些羣集數字的原始數據,並在互動datatable(從DT包)輸出這個......但我遇到了一個錯誤....下面的代碼.... library(shiny) # Loading the required packages pacman::p_load(Am

    -1熱度

    1回答

    我是新來的火花和機器學習,所以爲了練習,我試圖在spark 1.6.0中使用數據集編寫k-means算法。 我按照apache spark網站上的示例中的說明進行操作。 ,而這樣做,所以我得到這個錯誤: java.lang.NumberFormatException: For input string: "2014-03-15:10:10:20,Sorrento,8cc3b47e-bd01-448

    2熱度

    1回答

    我有許多問題和選擇,用戶將要回答。他們有這樣的格式: question_id, text, choices 併爲每個用戶我保存回答問題,並選擇的選擇由每個用戶在MongoDB中一個JSON: {user_id: "", "question_answers" : [{"question_id": "choice_id", ..}] } 現在我試圖使用k - 意味着根據他們的問題選擇尋找最相似

    0熱度

    2回答

    如何使用聚類算法說帶預定義質心的K-Means? 或者,如果你能推薦我的問題更好的解決方案,這是代所有像素的RGB圖像中到最近的預定義的顏色:{藍色,紅色,綠色,黃色,橙色}

    0熱度

    1回答

    我想運行具有超過3個功能的kmeans聚類。我嘗試了兩個功能,並想知道如何爲sklearn.cluster KMeans提供超過3個功能。 這裏是我的代碼和數據框,我想選擇要運行的功能。我有多個數據框作爲輸入,我必須提供它們作爲功能。 # currently two features are selected # I'd like to combine more than 3 features

    1熱度

    2回答

    我想使用輪廓分數爲我的數據集選擇最佳數量的簇。我的數據集是關於2,000多個品牌的信息,包括購買此品牌的客戶數量,品牌的銷售量以及品牌在各類別下銷售的商品數量。 由於我的數據集非常稀疏,因此我在集羣之前使用了MaxAbsScaler和TruncatedSVD。 我使用的聚類方法是k-means,因爲我最熟悉這個(我會感謝你對其他聚類方法的建議)。 當我將羣集數量設置爲80並運行k均值時,每次都得到

    0熱度

    1回答

    運行KMEANS我想用五個特點運行K均值聚類算法。 (K = 4)不過,我得到一個索引錯誤說這: > Traceback (most recent call last): > File > "C:\....py", line 756, > in <module> > plt.plot(X[i][0],X[i][1],colors[labels[i]],markersize=10) >

    -2熱度

    1回答

    我有不同的數據類型的列(如列:產品編號,名稱,大小,顏色,等級,部門等)的表,因爲不是所有列是數字的,我怎麼能聚集同類產品一起。數據位於Netezza中,爲了快速處理,我只想在數據量巨大時(大約200萬行)在數據庫端執行此操作。 我試圖在R中實現Gower的相似性,但它需要很長時間。有沒有我可以在netezza上使用的UDF? dput(頭(PROD)) 結構(列表(Product_key = C

    3熱度

    1回答

    K均值聚類我有在R.已經創建它的結構如下數據集: > head(btc_data) Date btc_close eth_close vix_close gold_close DEXCHUS change 1647 2010-07-18 0.09 NA NA NA NA 0 1648 2010-07-19 0.08 NA 25.97 115.730 NA