2010-01-18 100 views
7

我搜索一個可以成熟並可以簡單擴展的網絡爬蟲解決方案。我喜歡下面的功能...或可能延長履帶,以滿足他們:是否存在任何開放的,簡單的可擴展的網絡爬蟲?

  • 部分剛讀幾個網站
  • 的飼料放棄這些網站的內容
  • 如果網站有一個檔案我想抓取並索引它
  • 爬蟲應該能夠探索我的網絡的一部分,它應該能夠決定哪些網站符合給定的標準
  • 應該能夠通知我,如果事情可能符合我的興趣
  • 履帶不應受到太多的請求,攻擊它殺死服務器,它應該是聰明做的爬行
  • 履帶應當針對怪胎網站和服務器

那些東西上面可以做一個穩健由一個沒有任何大的努力,但我感興趣的任何解決方案,提供了一個可定製的,可擴展的履帶。我聽說過Apache Nutch,但對目前的項目非常不確定。你有經驗嗎?你能推薦替代品嗎?

回答

2

GitHub上快速搜索Anemone,這是一個網絡蜘蛛框架,它似乎符合您的要求 - 尤其是可擴展性。用Ruby編寫。
希望它順利!

+0

似乎是一個好東西,我喜歡它是紅寶石,我喜歡,作者創造了一個很好的爬蟲的dsl。但與nutch相比,我仍然沒有看到rss feed支持和諸如pdf爬行之類的東西。但它是可擴展的。感謝分享參考海葵。 – fifigyuri 2010-01-19 08:31:07

+0

不用擔心。樂意效勞。 – 2010-01-19 17:16:53

2

我熱忱推薦heritrix。這是非常靈活的,我認爲是最經過測試的可免費使用的開源爬蟲,因爲它是Internet Archive使用的。

2

您應該能夠找到適合您需求的東西here

+0

被這些東西只有在java中創造出來的? – Toad 2010-01-18 13:32:08

+0

該文章標題爲「用Java編寫的開源Web爬蟲」。但是,您可以找到使用其他語言構建的網頁抓取工具,以便爲您提供所需的內容。 – Brian 2010-01-26 16:08:13

4

當我爲我的Krugle啓動構建開源項目索引時,我廣泛使用了Nutch。很難定製,是一個相當龐大的設計。有一個插件架構,但插件和系統之間的交互是棘手和脆弱的。

作爲這種體驗的結果,並且需要更多的靈活性,我開始了Bixo項目 - 一個Web挖掘工具包。 http://openbixo.org

無論是適合你取決於多種因素,如權重:

  1. 你多少靈活性需要(+)
  2. 如何成熟的IT應爲( - )
  3. 無論你需要的能力量表(+)
  4. 如果您熟悉的Java/Hadoop的(+)