Scrapy關閉蜘蛛如果沒有網址爬行

我有一個蜘蛛，它從一個redis列表中獲取URL。Scrapy關閉蜘蛛如果沒有網址爬行

我想在沒有找到URL時很好地關閉spider。我試圖執行CloseSpider例外，但它似乎並沒有達到這個地步

def start_requests(self): 
    while True: 
     item = json.loads(self.__pop_queue()) 
     if not item: 
      raise CloseSpider("Closing spider because no more urls to crawl") 
     try: 
      yield scrapy.http.Request(item['product_url'], meta={'item': item}) 
     except ValueError: 
      continue

即使我提高CloseSpider例外，但我仍然得到下面的錯誤：

[email protected]:/scrapper# scrapy crawl general -a country=my -a log=file 
2017-07-17 12:05:13 [scrapy.core.engine] ERROR: Error while obtaining start requests 
Traceback (most recent call last): 
    File "/usr/local/lib/python2.7/site-packages/scrapy/core/engine.py", line 127, in _next_request 
    request = next(slot.start_requests) 
    File "/scrapper/scrapper/spiders/GeneralSpider.py", line 20, in start_requests 
    item = json.loads(self.__pop_queue()) 
    File "/usr/local/lib/python2.7/json/__init__.py", line 339, in loads 
    return _default_decoder.decode(s) 
    File "/usr/local/lib/python2.7/json/decoder.py", line 364, in decode 
    obj, end = self.raw_decode(s, idx=_w(s, 0).end()) 
TypeError: expected string or buffer

而且，我也嘗試在相同的函數中捕獲TypeError，但它也不起作用。

是否有處理這種

感謝任何推薦的方式

來源

2017-07-17 Raheel Khan

您需要檢查是否self.__pop_queue()回報你給json.loads()（或捕捉TypeError調用它時），像之前的東西：

def start_requests(self): 
    while True: 
     item = self.__pop_queue() 
     if not item: 
      raise CloseSpider("Closing spider because no more urls to crawl") 
     try: 
      item = json.loads(item) 
      yield scrapy.http.Request(item['product_url'], meta={'item': item}) 
     except (ValueError, TypeError): # just in case the 'item' is not a string or buffer 
      continue

來源

2017-07-17 12:14:53 zwer

很好的方式做到這一點，得益於 –

@BLANQUERAdrien - 超越你自己的問題，併發布您的代碼/錯誤，我們會看到發生了什麼，這是更適合OP的問題，優雅地退出其發電機功能。 – zwer

@zwer感謝它現在按預期工作。有一件事我仍然困惑。在什麼時候我們可以捕捉到蜘蛛的例外。我的意思是scrapy框架是什麼標準？謝謝 –

我有同樣的問題，發現一個小竅門。當蜘蛛在空閒（當它什麼都不做）時，我檢查在redis隊列中是否還有剩下的東西。如果沒有，我用close_spider關閉蜘蛛。下面的代碼位於spider類：

@classmethod 
def from_crawler(cls, crawler, *args, **kwargs): 
    from_crawler = super(SerpSpider, cls).from_crawler 
    spider = from_crawler(crawler, *args, **kwargs) 
    crawler.signals.connect(spider.idle, signal=scrapy.signals.spider_idle) 
    return spider 


def idle(self): 
    if self.q.llen(self.redis_key) <= 0: 
     self.crawler.engine.close_spider(self, reason='finished')

來源

2017-07-17 12:18:09

這是一個信息豐富的兄弟。尚未使用信號。謝謝 –

Scrapy關閉蜘蛛如果沒有網址爬行

回答

相關問題