2011-04-30 139 views
2

我已經從一組URL中提取單詞並計算出每個URL內容之間的餘弦相似度。並且我還對0-1(使用Min-Max)之間的值進行了歸一化。現在我需要羣集這些URL基於餘弦相似度值來找出相似的URL,這種聚類算法會是最合適的嗎?請給我建議一個動態聚類方法,因爲它會很有用,因爲我可以根據需要增加URL的數量,而且它會更自然請糾正我,如果你覺得我是在一個錯誤的方式取得進展。感謝預期。從餘弦相似值聚類

回答

2

K均值聚類可以用於在線學習,您只需要先選擇聚類數。另外,我認爲你不應該規範你的數據,因爲餘弦已經提供了範圍[0:1]的值。您的最小 - 最大規範化可能會導致信息丟失。

+1

+1。選擇簇數量的一個很好的啓發式是sqrt(n),其中* n *是項目的初始數量。 – 2011-05-01 11:26:16