2017-09-14 139 views
0

我使用scrapy抓取整個網站,但我的解析器永遠不會被調用。我一直在看這個,只做了很小的改動,但它不起作用。也許它只需要一雙新的眼睛就可以了。這裏是我的代碼:爲什麼我的scrapy解析器沒有被調用?

import scrapy 
from scrapy.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 

class FirstSpider(CrawlSpider): 
    name = 'firstSpider' 
    allowed_domains = ['http://example.com'] 
    start_urls = ['http://example.com'] 

    rules = (Rule(LinkExtractor(), callback='parse_page', follow=True),) 

    def parse_page(self, response): 
     print('made it to the parser...') 

我在日誌中看不到任何錯誤。該請求從example.com獲得200響應。已過濾掉「www.iana.org」的異地請求。

我在Ubuntu 16.04上使用python3。

在此先感謝您的任何提示。

+0

是你的'應該具有的功能作爲一個字符串參數callback'? – ryugie

+0

這是Scrapy文檔中的一個字符串,所以我相信。我刪除了引號以查看並得到了'NameError:name'parse_page'未定義' –

回答

2

的問題是下面

allowed_domains = ['http://example.com'] 

它應該是域名,而不是網址

allowed_domains = ['example.com'] 
相關問題