2011-03-01 48 views
2

比方說,我們有一個由sunspot/solr/lucene(或任何其他搜索引擎)索引的文章列表。太陽黑子/ Solr/Lucene:查找類似商品

如何找到與給定文章類似的文章?

如果有這樣的一個斷點續傳工具來完成,如: http://www.wordsfinder.com/api_Keyword_Extractor.php,或termextract從http://developer.yahoo.com/yql/console,或http://www.alchemyapi.com/api/demo.html

+0

謝謝大家的好答案。 – 2011-03-01 15:29:50

+0

看到這個[答案](http://stackoverflow.com/questions/5122788/reducing-similar-top-results-in-solr-result-output/5123165#5123165) – Karussell 2011-03-01 12:15:32

回答

1

你所要做的事情與我在this answer列出的任務非常相似。

簡而言之,您需要爲每個可用作查詢的文檔生成摘要,以便將其與每個文檔進行比較。文件摘要可以像該文件中的前N個術語一樣簡單(不包括停用詞)。您可以很容易地從Lucene文檔生成N個頂級條款,而無需使用任何第三方工具,SOweb上有很多示例可以執行此操作。