對於HTML和XML文檔(本地或基於Web)使用什麼樣的好爬蟲(蜘蛛),並且在Lucene/Solr解決方案空間中運行良好?可能是基於Java的,但不一定是。建議使用Lucene或Solr的蜘蛛工具?
16
A
回答
11
在我看來,這是一個相當顯著孔是阻止Solr的廣泛採用。新的DataImportHandler是導入結構化數據的第一步,但Solr沒有一個好的文檔導入管道。 Nutch確實有效,但Nutch crawler和Solr之間的整合有點笨拙。
我已經嘗試了所有我可以找到的開源爬蟲,並且他們都沒有集成Solr的開箱即用。
關注OpenPipeline和Apache Tika。
4
我建議你檢查出Nutch得到一些啓示:
Nutch的是開源的web搜索軟件。它建立在Lucene的Java中,加入網絡的細節,如履帶,鏈接,圖形數據庫,解析器HTML等文檔格式等
4
同時檢查Apache Droids [http://incubator.apache.org/droids/] - 這個希望不是一個簡單的蜘蛛/爬蟲/工作者框架。
這是新的,現成的使用起來並不容易(它需要一些tweeking來運行),但是保持你的注意是一件好事。
2
Nutch可能是你最接近的比賽,但它不太靈活。
如果你需要更多的東西,你將不得不非常剽竊你自己的抓取工具。它並沒有聽起來那麼糟糕,每種語言都有網絡庫,所以你只需要將一些任務隊列管理器與HTTP下載器和HTML解析器連接起來,這並不是什麼大事。您最有可能逃避一個盒子,因爲抓取主要是帶寬關注的,而不是CPU密集型的。
6
我試過nutch,但是很難與Solr整合。我會看看Heritrix。它有一個廣泛的插件系統,可以很容易地與Solr集成,並且在抓取時要快得多。它廣泛使用線程來加速進程。
0
有沒有人試過Xapian?它比solr更快,而且用C++編寫。
2
C#,但產生的Lucene(Java和C#)消耗品索引文件。
相關問題
- 1. Zend Lucene有蜘蛛嗎?
- 2. 建議想:網絡蜘蛛用Perl
- 3. 使用Scrapy創建蜘蛛,蜘蛛生成錯誤
- 4. Python的scrapy蜘蛛
- 5. Scrapy DOMAIN_NAME的蜘蛛
- 6. 有人可以建議一個網絡蜘蛛嗎?
- 7. Web蜘蛛與Wget的蜘蛛有什麼不同?
- 8. 如何喂蜘蛛蜘蛛爬行內的鏈接?
- 9. 創建一個簡單的'蜘蛛'
- 10. 佈局像蜘蛛
- 11. asp.net(網絡蜘蛛)
- 12. Scrapy與Scrapy蜘蛛
- 13. Solr/Lucene「工具包」測試搜索?
- 14. 使用scrapyd運行多個蜘蛛
- 15. 使用Scrapy製作蜘蛛 - JS
- 16. 在Scrapy中使用遞歸蜘蛛[Python]
- 17. 殭屍/蜘蛛可以使用Cookie嗎?
- 18. 合併Solr的3.4.0索引使用Lucene合併工具
- 19. 附表scrapyd蜘蛛和蜘蛛通過配置選項
- 20. Scrapy從主蜘蛛運行多個蜘蛛?
- 21. Scrapy調用除命令行指定的蜘蛛以外的其他蜘蛛
- 22. 創建Scrapy永不結束蜘蛛
- 23. Scrapy蜘蛛Xpath的選擇
- 24. scrapy中的連環蜘蛛
- 25. 蜘蛛內的Scrapyd jobid值
- 26. 的Python,蒙戈+蜘蛛猴
- 27. robots.txt的蜘蛛間隔
- 28. 的robots.txt禁止:蜘蛛
- 29. 使用Cookie檢測蜘蛛或瀏覽器
- 30. ZAP阿賈克斯蜘蛛認證工作不使用ZEST