2011-05-20 56 views
7

爲了便於說明,我們假設這是一個論壇服務。我需要計算每個用戶的信息之間的「相似性」,這樣的結果會是這樣的:測量文檔集之間的相似度

among posts by user A, similarity 60% 
among posts by user B, similarity 20% 
... 

我處理多字節字符串,所以我想我堅持在這裏搜索引擎。我們已經使用Solr,已經有更多的實現,但我不太確定如何構建查詢。任何幫助感謝!

+1

您需要定義什麼你認爲「相似」,並要如何建模。 Levenshtein距離?馬爾可夫鏈? – 2011-05-20 09:34:59

+0

其實我並不在意,因爲我願意讓Solr的更多像這樣的功能爲我決定。但是,除了標準「讓我獲得更多像這樣的文章,基於你做的相似性評分」之外,我在這裏要做的是「讓我在這些文章中獲得相似性分數」。 – jodeci 2011-05-23 01:51:03

回答

0

有兩種奇怪的問題:1.你爲什麼要對付SOLR? 2.這種相似性取決於目標問題。你的問題聽起來對我來說太普通。在語義相似性方面正在進行研究。有編輯距離算法,這可能是或許是不是你想要的。

因此,更準確地定義你的問題,你會得到更好的答案。