如何從另一個開始Scrapy蜘蛛

我在一個Scrapy項目中有兩個蜘蛛。 Spider1抓取頁面或整個網站的列表並分析內容。 Spider2使用Splash在Google上獲取網址並將該列表傳遞給Spider1。如何從另一個開始Scrapy蜘蛛

所以，Spider1抓取和分析內容，並可以在不被Spider2

# coding: utf8 
from scrapy.spiders import CrawlSpider 
import scrapy 


class Spider1(scrapy.Spider): 
    name = "spider1" 
    tokens = [] 
    query = '' 

    def __init__(self, *args, **kwargs): 
     ''' 
     This spider works with two modes, 
     if only one URL it crawls the entire website, 
     if a list of URLs only analyze the page 
     ''' 
     super(Spider1, self).__init__(*args, **kwargs) 
     start_url = kwargs.get('start_url') or '' 
     start_urls = kwargs.get('start_urls') or [] 
     query = kwargs.get('q') or '' 
     if google_query != '': 
      self.query = query 
     if start_url != '': 
      self.start_urls = [start_url] 
     if len(start_urls) > 0: 
      self.start_urls = start_urls 


    def parse(self, response): 
     ''' 
     Analyze and store data 
     ''' 
     if len(self.start_urls) == 1: 
      for next_page in response.css('a::attr("href")'): 
       yield response.follow(next_page, self.parse) 

    def closed(self, reason): 
     ''' 
     Finalize crawl 
     '''

爲Spider2

# coding: utf8 
import scrapy 
from scrapy_splash import SplashRequest 
from scrapy.crawler import CrawlerProcess 
from scrapy.utils.project import get_project_settings 


class Spider2(scrapy.Spider): 
    name = "spider2" 
    urls = [] 
    page = 0 

    def __init__(self, *args, **kwargs): 
     super(Spider2, self).__init__(*args, **kwargs) 
     self.query = kwargs.get('q') 
     self.url = kwargs.get('url') 
     self.start_urls = ['https://www.google.com/search?q=' + self.query] 

    def start_requests(self): 
     splash_args = { 
      'wait:': 2, 
     } 
     for url in self.start_urls: 
      splash_args = { 
       'wait:': 1, 
      } 
      yield SplashRequest(url, self.parse, args=splash_args) 

    def parse(self, response): 
     ''' 
     Extract URLs to self.urls 
     ''' 
     self.page += 1 

    def closed(self, reason): 
     process = CrawlerProcess(get_project_settings()) 
     for url in self.urls: 
      print(url) 
     if len(self.urls) > 0: 
      process.crawl('lexi', start_urls=self.urls, q=self.query) 
      process.start(False)

的代碼被稱爲可使用當運行Spider2我有這樣的錯誤：twisted.internet.error.ReactorAlreadyRunning和Spider1是在沒有URL列表的情況下調用。我嘗試使用Scrapy文檔建議的CrawlRunner，但它是同樣的問題。我嘗試使用CrawlProcess裏面的解析方法，它「工作」，但是，我仍然有錯誤消息。在解析方法中使用CrawlRunner時，它不起作用。

來源

2017-07-25 D-Kalck

我不知道，但我認爲蜘蛛必須在兩個不同的文件 –

他們在分開的文件。 –

如果您使用scrapy crawl命令（請參閱https://github.com/scrapy/scrapy/issues/1226），目前無法從其他蜘蛛啓動蜘蛛。如果您自己編寫啓動腳本，則可以從蜘蛛啓動蜘蛛 - 訣竅是使用相同的CrawlerProcess/CrawlerRunner實例。

雖然我不想那麼做，但是你正在爲框架而戰。支持這個用例會很好，但現在還沒有真正支持。

更簡單的方法是重寫您的代碼以使用單個Spider類，或者創建一個腳本（bash，Makefile，luigi/airflow，如果您想要看起來），它運行scrapy crawl spider1 -o items.jl，然後是scrapy crawl spider2;第二隻蜘蛛可以讀取由第一隻蜘蛛創建的物品並據此生成start_requests。

FTR：結合SplashRequests和普通scrapy.Requests在一個單一的蜘蛛是完全支持（它應該只是工作），你不必爲他們創建單獨的蜘蛛。

來源

2017-07-25 21:56:32

如何從另一個開始Scrapy蜘蛛

回答

相關問題