2016-09-18 318 views
-3

我正在處理來自BigData Challenge的數據集。用K-Means對一個或多個維度數據進行聚類?

https://dandelion.eu/datamine/open-big-data/ 數據集:電信 - 短信,通話,上網 - MI

樣本數據集(一天)

Square id Time interval Country code SMS-in activity SMS-out activity Call-in activity Call-out activity Internet traffic activity 

1 1.39E+12 39 0.11098917 0.166214369 0.10920186 0.164427059 13.64843792 

1 1.39E+12 46     0.026137424 

1 1.39E+12 39 0.165136827 0.176399458 0.030875085 0.027300465 13.33085819 

1 1.39E+12 0 0.029087775 0.027300465   

1 1.39E+12 39 0.186451092 0.136587823 0.05460093  11.32955226 

. 

. 

10000 1.39E+12 39 0.165136827 0.176399458 0.030875085 0.027300465 13.33085819 

在這個數據集,米蘭城的地理面積10,000平方ID劃分的並且他們已經爲每個方形ID提供了用戶活動(SMS,CALL,INTERNET),就像這樣我有一個月(30天)的持續時間的數據集。

有了這個我想這個集羣數據轉換成基於像最小值,平均值和最大值用戶活動的用戶活動三個集羣。

我厭倦了使用K-均值聚類算法,但因爲我的數據是一維的K-手段並不適合這個。

我可以用天方ID作爲維度,並運行K-均值?

任何關於方法或聚類算法的建議?

回答

1

決不聚類時使用的ID的列。

此外,k-均值僅適用於所有列具有相同比例的情況。 Please see the answers to this post

如果你想地利融入集羣,我建議你仔細定製的方法。看看爲定製設計的通用DBSCAN。永遠不要認爲集羣「正常工作」,因爲大多數情況下,它不起作用,不幸的是。

此外,您還需要定義你的目標提前。你想達到什麼目的,並且你如何衡量成功?僅僅因爲你想做羣集或者因爲你不知道該怎麼做而進行羣集並不會取得成功。

至於數據集,它沒有真正有目標。獲勝的條目似乎歸結爲當時有更多人在能源消耗較高的情況下(意外)。開放式挑戰確實很難做到。

+0

感謝Anony-Mousse的解釋,我會檢查Generalized DBSCAN。 正如在帖子中提到的,我希望根據用戶活動對平方ID進行聚類,讓我們說三個羣集,最小用戶活動,然後是平均和最大。 – packet007

+0

如果您想要轉換數據,請先執行此操作。 –

相關問題