我搜索一個可以成熟並可以簡單擴展的網絡爬蟲解決方案。我喜歡下面的功能...或可能延長履帶,以滿足他們:是否存在任何開放的,簡單的可擴展的網絡爬蟲?
- 部分剛讀幾個網站
- 的飼料放棄這些網站的內容
- 如果網站有一個檔案我想抓取並索引它
- 爬蟲應該能夠探索我的網絡的一部分,它應該能夠決定哪些網站符合給定的標準
- 應該能夠通知我,如果事情可能符合我的興趣
- 履帶不應受到太多的請求,攻擊它殺死服務器,它應該是聰明做的爬行
- 履帶應當針對怪胎網站和服務器
那些東西上面可以做一個穩健由一個沒有任何大的努力,但我感興趣的任何解決方案,提供了一個可定製的,可擴展的履帶。我聽說過Apache Nutch,但對目前的項目非常不確定。你有經驗嗎?你能推薦替代品嗎?
似乎是一個好東西,我喜歡它是紅寶石,我喜歡,作者創造了一個很好的爬蟲的dsl。但與nutch相比,我仍然沒有看到rss feed支持和諸如pdf爬行之類的東西。但它是可擴展的。感謝分享參考海葵。 – fifigyuri 2010-01-19 08:31:07
不用擔心。樂意效勞。 – 2010-01-19 17:16:53