Q

建議使用Lucene或Solr的蜘蛛工具？

2008-11-12 74 views 16 likes

16

對於HTML和XML文檔（本地或基於Web）使用什麼樣的好爬蟲（蜘蛛），並且在Lucene/Solr解決方案空間中運行良好？可能是基於Java的，但不一定是。建議使用Lucene或Solr的蜘蛛工具？

2008-11-12 BuddyJoe

A

回答

11

在我看來，這是一個相當顯著孔是阻止Solr的廣泛採用。新的DataImportHandler是導入結構化數據的第一步，但Solr沒有一個好的文檔導入管道。 Nutch確實有效，但Nutch crawler和Solr之間的整合有點笨拙。
我已經嘗試了所有我可以找到的開源爬蟲，並且他們都沒有集成Solr的開箱即用。
關注OpenPipeline和Apache Tika。

2008-11-12 21:28:16 Geordie

4

我建議你檢查出Nutch得到一些啓示：

Nutch的是開源的web搜索軟件。它建立在Lucene的Java中，加入網絡的細節，如履帶，鏈接，圖形數據庫，解析器HTML等文檔格式等

2008-11-12 01:19:12 lbz

4

同時檢查Apache Droids [http://incubator.apache.org/droids/] - 這個希望不是一個簡單的蜘蛛/爬蟲/工作者框架。

這是新的，現成的使用起來並不容易（它需要一些tweeking來運行），但是保持你的注意是一件好事。

2008-11-14 17:33:38

2

Nutch可能是你最接近的比賽，但它不太靈活。

如果你需要更多的東西，你將不得不非常剽竊你自己的抓取工具。它並沒有聽起來那麼糟糕，每種語言都有網絡庫，所以你只需要將一些任務隊列管理器與HTTP下載器和HTML解析器連接起來，這並不是什麼大事。您最有可能逃避一個盒子，因爲抓取主要是帶寬關注的，而不是CPU密集型的。

2009-01-11 01:02:18 taw

6

我試過nutch，但是很難與Solr整合。我會看看Heritrix。它有一個廣泛的插件系統，可以很容易地與Solr集成，並且在抓取時要快得多。它廣泛使用線程來加速進程。

2009-05-01 21:06:02 John

0

有沒有人試過Xapian？它比solr更快，而且用C++編寫。

2009-10-08 11:17:22 user87400

2

http://arachnode.net

C＃，但產生的Lucene（Java和C＃）消耗品索引文件。

2013-03-03 20:27:03

相關問題