在過去的一個月中,我一直在使用Scrapy開展一個網絡爬蟲項目。最佳網絡圖爬行速度?
該項目涉及從主頁可訪問的單個域名中拉下所有網頁的全部文檔內容。使用Scrapy編寫它非常簡單,但運行速度太慢。在2-3天內,我只能打10萬頁。
我意識到我最初的觀點認爲Scrapy並不適合這種類型的抓取,這是在揭示它自己。
我已經開始專注於Nutch和Methabot,希望有更好的表現。我需要在抓取過程中存儲的唯一數據是網頁的全部內容,並且最好是頁面上的所有鏈接(但即使這些數據可以在後期處理中完成)。
我在尋找一種快速並使用許多並行請求的爬網程序。
它也可能是你的ISP。 – 2013-02-12 18:22:06