2009-09-13 54 views
2

我的目標是建立一個新聞提要和博客提要的聚合,以便讓 在其中輕鬆搜索/跟蹤實體。我一直在尋找諸如小獵犬,Lucene,SWISH-E等許多解決方案。應該使用哪個開源搜索引擎?

基本上,我只能找到兩個在這些引擎上完成的比較研究的來源,其中一個比較有點過時。基本上我想要一個搜索引擎,可以在數據量不是很大的情況下使用,但索引頻繁,每30分鐘左右一次。我覺得在這種情況下,梗犬不是一個好工具。當數據量較大,更新頻率較低時,效果更好。有人在信息檢索領域工作過,可以提供一些建議嗎?

回答

3

Lucene是衆所周知和支持,所以親自,這將是我的第一選擇。

+0

他似乎同意你 - http://zooie.wordpress.com/2009/07/06/a-comparison-of-open-source-search-engines-and-indexing-twitter/ – vinutheraj 2009-09-13 18:22:41

+0

怎麼辦?我的主要目的是做研究,而Lucene沒有提供太多的相似/評分算法。除了梗之外,有沒有可能試用過的學術開源引擎? – vinutheraj 2009-09-15 12:10:37

+1

Lucene確實允許在評分周圍進行相當多的操作。郵件列表中的一些搜索應該提供一些信息。 – daveb 2009-09-15 20:39:38

1

如果您發現一個隨時可用的搜索引擎,請查看fastcatsearch。

它已被開發用於商業搜索,並應用於很多不同的網站。

比lucene更快,並且具有基於web的網頁管理器,可以輕鬆使用。

主辦在github,並檢查出來。​​