2012-03-27 126 views
1

我目前正在開發一個web歸檔項目。基本上,我們要做的是將一組網站歸檔(使用heritrix抓取工具),並通過Web界面訪問歸檔內容。從Lucene索引更新Solr索引

我們還提供整個檔案全文搜索。目前,該指數使用nutchwax(apache Nutch的定製版本,爲.warc文件定製,如由heritrix生成)生成。 Nutchwax轉儲出一個Lucene索引並在Solr中使用它,所有必須完成的工作就是生成一個正確的模式。

這一切都已完成,它的運行方式與此類似,但存檔不是靜態的,並且定期生成新的.warc文件。

我現在可以做的是生成一個新索引,將其與現有索引合併並將其導入Solr。但是,要做到這一點Solr必須重新啓動。 如果索引可以「更新」,通常情況下會更新(當通過http請求更新索引時)

有沒有人有一個想法,如何做到這一點?我的第一個鏡頭是從Lucene索引文件生成.xml文件並將它們發佈到Solr。這是值得一試的,還是有更優雅的解決方案?

回答

1

您可能可以利用多個內核來實現您所需的功能。有關更多詳細信息,請參見Solr Wiki - CoreAdmin。我認爲您可以利用MergeIndexes功能或Swap核心的功能,在您的方案中獲得更好的體驗。

+0

非常感謝您的回答,這看起來非常有趣! – user871784 2012-03-27 17:20:04