2012-04-06 68 views
0

我已經有一個使用Lucene3.5的項目。是否可以將Nutch Crawler與我現有的Lucene項目集成?

現在我需要提供網絡搜索功能,但我不想導入整個Nutch項目。

所以我想知道,可能我只能使用Nutch的抓取工具抓取網站並將它們編入Lucene風格。

然後用我現有的Lucene搜索器搜索索引文件。

是否可以做到這一點,或者你有什麼建議(Heritrix怎麼樣)?

回答

0

是的,可以用你自己的lucene實現搜索nutch產生的索引。我在我們的項目的wiki中寫了一個簡短的描述,我們使用nutch來抓取靜態內容。

你可以看看這裏:http://code.google.com/p/gtxcontentconnector/wiki/HowTo_Nutch

BR, 克里斯

+0

感謝csupnig,但我注意到,Lucene索引文件似乎與Nutch的指數files.The Lucene索引不同的是「* .fdt 「」 *。FDX「,等等。但是Nutch出來了「部分-00000 /數據,部分-00000 /索引」。 – MrROY 2012-04-06 08:33:26

+0

爬網完成後,索引應位於nutch_base_dir/your_crawl_dir/index中。據我所知,part-xxxx部分將在最後結合使用。 – csupnig 2012-04-06 09:17:10

相關問題