測量文檔集之間的相似度

爲了便於說明，我們假設這是一個論壇服務。我需要計算每個用戶的信息之間的「相似性」，這樣的結果會是這樣的：測量文檔集之間的相似度

among posts by user A, similarity 60% 
among posts by user B, similarity 20% 
...

我處理多字節字符串，所以我想我堅持在這裏搜索引擎。我們已經使用Solr，已經有更多的實現，但我不太確定如何構建查詢。任何幫助感謝！

2011-05-20 jodeci

您需要定義什麼你認爲「相似」，並要如何建模。 Levenshtein距離？馬爾可夫鏈？ – 2011-05-20 09:34:59

其實我並不在意，因爲我願意讓Solr的更多像這樣的功能爲我決定。但是，除了標準「讓我獲得更多像這樣的文章，基於你做的相似性評分」之外，我在這裏要做的是「讓我在這些文章中獲得相似性分數」。 – jodeci 2011-05-23 01:51:03

有兩種奇怪的問題：1.你爲什麼要對付SOLR？ 2.這種相似性取決於目標問題。你的問題聽起來對我來說太普通。在語義相似性方面正在進行研究。有編輯距離算法，這可能是或許是不是你想要的。

因此，更準確地定義你的問題，你會得到更好的答案。

2011-07-27 20:30:00

可能Carrot2會感興趣你（和this blog與之相關的）

2011-09-15 19:09:15 Omnaest

有相似的幾個措施，一個簡單而有效的一個是餘弦相似性。還有更復雜的，如史密斯 - 沃特曼等，

2011-12-09 05:18:41 Mikos

回答