2014-10-18 77 views
1

我需要使用同一個蜘蛛抓取兩個URL:example.com/folder/和example.com/folder/fold2,併爲每個url檢索兩個不同的東西。scrapy分別抓取兩個不同的頁面

start_urls = [ 'http://www.example.com/folder', 'http://www.example.com/folder/fold2']

1)檢查東西/文件夾 2)檢查東西/文件夾不同/ fold2

+1

什麼是您確切的問題?你嘗試過什麼嗎? – Sasa 2014-10-18 10:56:08

+0

爬蟲在兩個URL中檢查相同的東西 – Pridge 2014-10-18 11:04:12

回答

2

看起來你想覆蓋start_requests方法而不是使用start_urls:

from scrapy import Spider, Request 

class MySpider(Spider): 
    name = 'myspider' 

    def start_requests(self): 
     yield Request('http://www.example.com/folder', 
         callback=self.parse_folder) 
     yield Request('http://www.example.com/folder/fold2', 
         callback=self.parse_subfolder) 

    # ... define parse_folder and parse_subfolder here 
+0

我沒有足夠的聲望來投票您的答案,我會盡快做!謝謝! – Pridge 2014-10-19 09:57:10