2011-05-31 57 views
-1

我如何計算兩個文檔之間的距離?在數字的k-means中,你必須計算兩點之間的距離。我知道我可以使用餘弦函數。 我想對rss文件執行羣集。我已經完成了並刪除了文檔中的停用詞。我已經在每個文檔中統計了單詞的頻率。現在我想實現k均值算法。使用K-means算法進行文檔聚類

回答

1

我假設你的難度在創建特徵向量?創建用於每個文件由

  1. 收集所有字一起形成一個巨大的矢量
  2. 設置該向量的元素是項的計數的特徵向量。

舉例來說,如果你有

Document 1 = the quick brown fox jumped over the brown dog 
Document 2 = the brown cows eat hippo meat 

那麼總的組字是[的,快速的,棕色,狐狸,跳下,結束了,狗,牛,吃,河馬,肉]和文獻向量是

Document 1 = [1,1,2,1,1,1,1,1,0,0,0,0] 
Document 2 = [1,0,1,0,0,0,0,0,1,1,1,1] 

而現在你只要,你可以用它來表示文檔兩大巨頭的特徵向量,你可以使用K-means聚類。正如其他人所說,歐幾里得距離可以用來計算文件之間的距離。

+0

你如何通過k-means運行這些文檔向量?你是否必須迭代計算每個文檔和每個其他文檔之間的距離? – 2013-03-07 22:50:57

0

您可以使用n維繫統的歐幾里得距離公式。

sqrt((x1-x2)^2 + (y1-y2)^2 + (z1 - z2)^2 ...)