KMEANS文本數據進行聚類

-2

 Database Name    Name 

     db1_user     Login 
     db1_client    Login 
     db_care     Login 
     db_control    LoginEdit 
     db_technology    View 
     db_advanced    LoginEdit

我必須基於集羣的「名稱」字段的數據庫名稱。當我將其轉換爲numpy的，使用

數據集= df2.values

當我打印所述打印（dataset.dtype），類型爲對象。我剛剛開始使用聚類，根據我的理解，我明白該對象不適用於Kmeans聚類。

任何幫助將得到appreicated！

來源

2016-09-19 user3447653

什麼平均

Login LoginEdit View

應該是？

k-means只適用於連續的數值數據是有原因的。因爲的意思是要求這樣的數據被明確定義。

我不認爲集羣是適用於您的問題在所有（而不是看看數據清洗）。但顯然你需要一種適用於任意距離的方法 - k-均值不適用。

來源

2016-09-19 20:26:04

我不明白是否要爲每個「名稱」屬性組開發集羣，或者不管「名稱」的值如何，都要創建n個集羣;我不明白在這裏可以實現什麼樣的聚類。

無論如何，就在幾天前，datascience SE站點（來自R用戶）也有類似的問題，要求電子郵件地址的本地名稱相似（「@」之前的部分）），而不是數據庫名稱。問題與你的相似。

檢查了這一點：

https://datascience.stackexchange.com/questions/14146/text-similarities/14148#14148

答案是全面的關於字符串的不同距離的措施。

也許這是你應該調查。然後決定一個適當的距離度量，這個度量可以在python中使用（或者你可以自己編程），並且符合你的需求。

來源

2016-09-26 09:16:38 knb

KMEANS文本數據進行聚類

回答

相關問題