2008-11-12 74 views

回答

11

在我看來,這是一個相當顯著孔是阻止Solr的廣泛採用。新的DataImportHandler是導入結構化數據的第一步,但Solr沒有一個好的文檔導入管道。 Nutch確實有效,但Nutch crawler和Solr之間的整合有點笨拙。
我已經嘗試了所有我可以找到的開源爬蟲,並且他們都沒有集成Solr的開箱即用。
關注OpenPipeline和Apache Tika。

4

我建議你檢查出Nutch得到一些啓示:

Nutch的是開源的web搜索軟件。它建立在Lucene的Java中,加入網絡的細節,如履帶,鏈接,圖形數據庫,解析器HTML等文檔格式等

4

同時檢查Apache Droids [http://incubator.apache.org/droids/] - 這個希望不是一個簡單的蜘蛛/爬蟲/工作者框架。

這是新的,現成的使用起來並不容易(它需要一些tweeking來運行),但是保持你的注意是一件好事。

2

Nutch可能是你最接近的比賽,但它不太靈活。

如果你需要更多的東西,你將不得不非常剽竊你自己的抓取工具。它並沒有聽起來那麼糟糕,每種語言都有網絡庫,所以你只需要將一些任務隊列管理器與HTTP下載器和HTML解析器連接起來,這並不是什麼大事。您最有可能逃避一個盒子,因爲抓取主要是帶寬關注的,而不是CPU密集型的。

6

我試過nutch,但是很難與Solr整合。我會看看Heritrix。它有一個廣泛的插件系統,可以很容易地與Solr集成,並且在抓取時要快得多。它廣泛使用線程來加速進程。

0

有沒有人試過Xapian?它比solr更快,而且用C++編寫。