4
- http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=1
- http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=2是獨一無二的,但scrapy是過濾這些URL爲重複,不刮他們。
我使用CrawlSpider本規則:
rules = (
Rule(LinkExtractor(restrict_css=('.resultspagenum'))),
Rule(LinkExtractor(allow=('\/mobiles\/smartphones\/[a-zA-Z0-9_.-]*',),), callback='parse_product'),
)`
我不理解這種行爲,可有人解釋一下嗎?上週同樣的代碼工作。 使用Scrapy 1.3.0版
你確定他們沒有被訪問? – Fabricator
是的,沒有什麼是從整個網站報廢。所有的鏈接都被過濾。 – javed
可能被鏈接抓取,但頁面上沒有數據? – Verz1Lka