Scrapy：從CSV導出FormRequest，按順序導出或與搜索字詞導出

我是Python和Scrapy的新手，並且遇到了一些簡單的搜尋器問題，我使用FormRequest來獲取搜索結果頁面上的標題。Scrapy：從CSV導出FormRequest，按順序導出或與搜索字詞導出

基本上，這個想法是讓csv充滿搜索條件，並通過相同的表單運行它們，從結果頁面獲取標題，然後導出到不同（或相同）的csv。

搜索工作正常 - 輸出符合預期/預期。

問題是，它按照scrapy爲頁面加載的順序導出標題，這意味着它們與原始csv相比無序，並且我無法將它們與原始csv中的行匹配回來。

這裏是我的代碼：

from scrapy.item import Item, Field 
from scrapy.http import FormRequest 
from scrapy.spider import Spider 

class ExampleSpider(Spider): 
    name = "examplecsv" 
    allowed_domains = ["examplewebsite.com"] 
    start_urls = ["https://www.examplewebsite.com"] 

    def parse(self, response): 
     with open('addresses.csv') as fp: 
      for line in fp: 
       yield FormRequest.from_response(response, 
             formdata={'examplesearchfield':line}, 
             clickdata={'id': 'clickexamplesearch'}, 
             callback=self.parse1) 

    def parse1 (self, response): 

     for title in response.css('title'): 
      yield { 

       'title':title.css('title::text').re(r'^[^|]+(?=|)') 
      }

我已經做了一堆在計算器上搜索的，但無法找到匹配礦用FormRequest方面存在問題。我嘗試將CONCURRENT_REQUESTS設置爲1，但這沒有幫助。

有沒有辦法強迫scrapy等待每個FormRequest在繼續之前完成，或者包含輸入搜索詞及其輸出？

我的Python知識不是先進的，所以我希望有一個簡單的代碼調整，將有助於。

任何指導將不勝感激。

來源

2017-09-03 fungiblecommodity

最簡單的可能是在request.meta字典中添加原始行號，並在解析時輸出它。

像這樣（未經）：

from scrapy.item import Item, Field 
from scrapy.http import FormRequest 
from scrapy.spider import Spider 

class ExampleSpider(Spider): 
    name = "examplecsv" 
    allowed_domains = ["examplewebsite.com"] 
    start_urls = ["https://www.examplewebsite.com"] 

    def parse(self, response): 
     with open('addresses.csv') as fp: 
      for i, line in enumerate(fp, start=1): 
       yield FormRequest.from_response(response, 
             formdata={'examplesearchfield':line}, 
             clickdata={'id': 'clickexamplesearch'}, 
             callback=self.parse1, 
             meta={'lineno': i}) 

    def parse1 (self, response): 

     for title in response.css('title'): 
      yield { 

       'title':title.css('title::text').re(r'^[^|]+(?=|)'), 
       'lineno': response.meta['lineno'] 
      }

來源

2017-09-04 13:01:23

您可以將CSV數據添加到您的請求中，並將其包含在最終收益中。這將創建一個不需要「將它們重新匹配」的輸出。

from scrapy.item import Item, Field 
from scrapy.http import FormRequest 
from scrapy.spider import Spider 

class ExampleSpider(Spider): 
    name = "examplecsv" 
    allowed_domains = ["examplewebsite.com"] 
    start_urls = ["https://www.examplewebsite.com"] 

    def parse(self, response): 
     with open('addresses.csv') as fp: 
      for line in fp: 
       yield FormRequest.from_response(response, 
             formdata={'examplesearchfield':line}, 
             clickdata={'id': 'clickexamplesearch'}, 
             meta={'line' : line }, 
             callback=self.parse1) 

    def parse1 (self, response): 

     for title in response.css('title'): 
      yield { 
       'line' : response.meta.get('line') 
       'title':title.css('title::text').re(r'^[^|]+(?=|)') 
      }

來源

2017-09-04 13:00:00 Casper

Scrapy：從CSV導出FormRequest，按順序導出或與搜索字詞導出

回答

相關問題