我需要使用scrapy用於抓取網頁的所有內部網絡鏈接,使得在例如www.stackovflow.com所有鏈接被抓取。此代碼排序工作的:Scrapy抓取僅供內部鏈接,包括相對鏈接
extractor = LinkExtractor(allow_domains=self.getBase(self.startDomain))
for link in extractor.extract_links(response):
self.registerUrl(link.url)
然而,有一個小問題,如/meta
或所有相對路徑不抓取作爲不包含基本域stackoverflow.com
。任何想法如何解決這一問題?
不scrapy.spidermiddlewares.offsite.OffsiteMiddleware https://doc.scrapy.org/en/latest/topics/spider-middleware.html#scrapy.spidermiddlewares.offsite.OffsiteMiddleware是否做到這一點? –
感謝我顯然發現了一些舊的文檔 –