我如何計算兩個文檔之間的距離?在數字的k-means中,你必須計算兩點之間的距離。我知道我可以使用餘弦函數。 我想對rss文件執行羣集。我已經完成了並刪除了文檔中的停用詞。我已經在每個文檔中統計了單詞的頻率。現在我想實現k均值算法。使用K-means算法進行文檔聚類
-1
A
回答
1
我假設你的難度在創建特徵向量?創建用於每個文件由
- 收集所有字一起形成一個巨大的矢量
- 設置該向量的元素是項的計數的特徵向量。
舉例來說,如果你有
Document 1 = the quick brown fox jumped over the brown dog
Document 2 = the brown cows eat hippo meat
那麼總的組字是[的,快速的,棕色,狐狸,跳下,結束了,狗,牛,吃,河馬,肉]和文獻向量是
Document 1 = [1,1,2,1,1,1,1,1,0,0,0,0]
Document 2 = [1,0,1,0,0,0,0,0,1,1,1,1]
而現在你只要,你可以用它來表示文檔兩大巨頭的特徵向量,你可以使用K-means聚類。正如其他人所說,歐幾里得距離可以用來計算文件之間的距離。
1
有各種距離函數。一種是Euclidean Distance。
0
您可以使用n維繫統的歐幾里得距離公式。
sqrt((x1-x2)^2 + (y1-y2)^2 + (z1 - z2)^2 ...)
相關問題
- 1. 使用mahout進行Kmeans聚類
- 2. 使用scipy kmeans進行聚類分析
- 3. KMEANS文本數據進行聚類
- 4. 聚類超過3個文檔時Kmeans進行異常緩慢
- 5. 平分文檔聚類的KMeans
- 6. 在Python中對文檔進行聚類
- 7. 聚類算法的功能縮放(規範化)(如Kmeans&EM)
- 8. Kmeans聚類和文本挖掘在R
- 9. KMeans中的數據聚類使用二叉樹結構的算法
- 10. 文檔聚類
- 11. 這個變量應該用什麼分類算法進行文檔分類?
- 12. 用Mahout使用Clojure進行聚類(fkmeans)
- 13. 使用CoreNLP ColumnDataClassifier進行大型文檔集的文檔分類
- 14. Matlab的:二進制使用來自聚類算法
- 15. 聚類標籤和聚類中心(R中的kmeans)
- 16. 將kmeans聚類結果導出到.csv
- 17. Kmeans聚類識別R中的知識
- 18. kmeans聚類與數據框(scipy)
- 19. Kmeans聚類如何在tensorflow中工作?
- 20. R繪製kmeans與熱圖聚類
- 21. opencv kmeans聚類的輸入矩陣
- 22. 在Python中使用SOM進行聚類
- 23. 使用MySQL進行「聚類分析」
- 24. KMeans算法在opencv中
- 25. 如何在java中使用k-means算法進行詞彙聚類
- 26. 我應該使用哪種算法來根據集合對詞進行聚類
- 27. 如何解決這與kmeans聚類和使用餘弦similiraty
- 28. 使用jaccard距離矩陣的Kmeans聚類
- 29. 尋找哪一行被分配到哪個簇 - kmeans聚類Matlab
- 30. 使用中文Whispers算法的人臉聚類
你如何通過k-means運行這些文檔向量?你是否必須迭代計算每個文檔和每個其他文檔之間的距離? – 2013-03-07 22:50:57