Scrapy - 如何跟蹤啓動網址

給定一個啓動URL的池我想在parse_item（）函數中標識原始URL。Scrapy - 如何跟蹤啓動網址

就我而言，scrapy蜘蛛開始從最初的啓動URL池中爬取，但是在解析時沒有追蹤哪個url是最初的url。如何能夠跟蹤起點？

2016-09-19 manelmc

如果你需要的蜘蛛內部解析的網址，只需使用response.url：

def parse_item(self, response): 
    print response.url

，但如果你需要它外面的蜘蛛，我能想到的方法如下：

在scrapycaller.py

from subprocess import call 
urls = 'url1,url2' 
cmd = 'scrapy crawl myspider -a myurls={}'.format(urls) 
call(cmd, shell=True)

內myspider：

class mySpider(scrapy.Spider): 
    def __init__(self, myurls=''):    
     self.start_urls = myurls.split(",")

2016-09-19 14:25:46 PHA

回答