是否存在任何開放的，簡單的可擴展的網絡爬蟲？

我搜索一個可以成熟並可以簡單擴展的網絡爬蟲解決方案。我喜歡下面的功能...或可能延長履帶，以滿足他們：是否存在任何開放的，簡單的可擴展的網絡爬蟲？

那些東西上面可以做一個穩健由一個沒有任何大的努力，但我感興趣的任何解決方案，提供了一個可定製的，可擴展的履帶。我聽說過Apache Nutch，但對目前的項目非常不確定。你有經驗嗎？你能推薦替代品嗎？

2010-01-18 fifigyuri

在GitHub上快速搜索Anemone，這是一個網絡蜘蛛框架，它似乎符合您的要求 - 尤其是可擴展性。用Ruby編寫。
希望它順利！

2010-01-18 21:24:56

似乎是一個好東西，我喜歡它是紅寶石，我喜歡，作者創造了一個很好的爬蟲的dsl。但與nutch相比，我仍然沒有看到rss feed支持和諸如pdf爬行之類的東西。但它是可擴展的。感謝分享參考海葵。 – fifigyuri 2010-01-19 08:31:07

不用擔心。樂意效勞。 – 2010-01-19 17:16:53

我熱忱推薦heritrix。這是非常靈活的，我認爲是最經過測試的可免費使用的開源爬蟲，因爲它是Internet Archive使用的。

2010-01-18 10:32:27

您應該能夠找到適合您需求的東西here。

2010-01-18 11:03:04 Kane

被這些東西只有在java中創造出來的？ – Toad 2010-01-18 13:32:08

該文章標題爲「用Java編寫的開源Web爬蟲」。但是，您可以找到使用其他語言構建的網頁抓取工具，以便爲您提供所需的內容。 – Brian 2010-01-26 16:08:13

當我爲我的Krugle啓動構建開源項目索引時，我廣泛使用了Nutch。很難定製，是一個相當龐大的設計。有一個插件架構，但插件和系統之間的交互是棘手和脆弱的。

作爲這種體驗的結果，並且需要更多的靈活性，我開始了Bixo項目 - 一個Web挖掘工具包。 http://openbixo.org。

無論是適合你取決於多種因素，如權重：

2010-01-31 15:47:44 kkrugler

回答