2016-09-19 140 views
-2

我有以下2列的熊貓數據幀:KMEANS文本數據進行聚類

 Database Name    Name 

     db1_user     Login 
     db1_client    Login 
     db_care     Login 
     db_control    LoginEdit 
     db_technology    View 
     db_advanced    LoginEdit 

我必須基於集羣的「名稱」字段的數據庫名稱。當我將其轉換爲numpy的,使用

數據集= df2.values

當我打印所述打印(dataset.dtype),類型爲對象。我剛剛開始使用聚類,根據我的理解,我明白該對象不適用於Kmeans聚類。

任何幫助將得到appreicated!

回答

0

什麼平均

Login 
LoginEdit 
View 

應該是

k-means只適用於連續的數值數據是有原因的。因爲的意思是要求這樣的數據被明確定義。

我不認爲集羣是適用於您的問題在所有(而不是看看數據清洗)。但顯然你需要一種適用於任意距離的方法 - k-均值不適用。

0

我不明白是否要爲每個「名稱」屬性組開發集羣,或者不管「名稱」的值如何,都要創建n個集羣;我不明白在這裏可以實現什麼樣的聚類。

無論如何,就在幾天前,datascience SE站點(來自R用戶)也有類似的問題,要求電子郵件地址的本地名稱相似(「@」之前的部分) ),而不是數據庫名稱。問題與你的相似。

檢查了這一點:

https://datascience.stackexchange.com/questions/14146/text-similarities/14148#14148

答案是全面的關於字符串的不同距離的措施。

也許這是你應該調查。然後決定一個適當的距離度量,這個度量可以在python中使用(或者你可以自己編程),並且符合你的需求。