我正在處理來自BigData Challenge的數據集。用K-Means對一個或多個維度數據進行聚類?
https://dandelion.eu/datamine/open-big-data/ 數據集:電信 - 短信,通話,上網 - MI
樣本數據集(一天)
Square id Time interval Country code SMS-in activity SMS-out activity Call-in activity Call-out activity Internet traffic activity
1 1.39E+12 39 0.11098917 0.166214369 0.10920186 0.164427059 13.64843792
1 1.39E+12 46 0.026137424
1 1.39E+12 39 0.165136827 0.176399458 0.030875085 0.027300465 13.33085819
1 1.39E+12 0 0.029087775 0.027300465
1 1.39E+12 39 0.186451092 0.136587823 0.05460093 11.32955226
.
.
10000 1.39E+12 39 0.165136827 0.176399458 0.030875085 0.027300465 13.33085819
在這個數據集,米蘭城的地理面積10,000平方ID劃分的並且他們已經爲每個方形ID提供了用戶活動(SMS,CALL,INTERNET),就像這樣我有一個月(30天)的持續時間的數據集。
有了這個我想這個集羣數據轉換成基於像最小值,平均值和最大值用戶活動的用戶活動三個集羣。
我厭倦了使用K-均值聚類算法,但因爲我的數據是一維的K-手段並不適合這個。
我可以用天方ID作爲維度,並運行K-均值?
任何關於方法或聚類算法的建議?
感謝Anony-Mousse的解釋,我會檢查Generalized DBSCAN。 正如在帖子中提到的,我希望根據用戶活動對平方ID進行聚類,讓我們說三個羣集,最小用戶活動,然後是平均和最大。 – packet007
如果您想要轉換數據,請先執行此操作。 –