2011-11-29 52 views
1

我的Django應用程序需要能夠搜索存儲在另一個Postgres數據庫(即與我的Django數據庫不同)上的大量聊天記錄。最初,網站上的用戶將使用簡單的全文搜索日誌,但後來我們打算使用NLP解析這些日誌。索引聊天記錄並在Django中搜索它

在這種情況下什麼是更好的索引選項 - Sphinx或Solr?

我在找東西是FOSS,擴展性好,支持NLP並且有很好的Python/Django綁定,除非你們中的任何一個人有更好的方法/工具來完成這個任務。

對不起,如果我上面有任何錯誤。我不熟悉實現這種任何事情的概念,並且儘可能快地掌握這些概念。

回答

0

它不會完全實現,但我認爲如果你想進行全文搜索,只要開源實現去,Solr/Lucene就可以得到明確的答案。警告:我不使用Solr和Python,我從來沒有使用過獅身人面像。

流水線就像從數據庫中讀取日誌,索引它們,將索引存儲在任何服務器上,然後搜索。

向Lucene索引器添加額外/自定義的NLP內容非常簡單。

這個thread comparing Lucene and ElasticSearch可能值得一看。