2017-05-04 70 views
-1

我想要廢棄一個Web內容,並且我正在使用Scrapy。我已經多次使用這個工具,並且它一直運行良好,但是現在它停止工作於其中一個網站「https://careers.dexcom.com/search-results」。Scrapy無法正常工作

當你訪問這個網頁時,你會看到有一個類「jobs-list-item」的「li」,當我嘗試使用這個選擇器獲取數據時,它什麼都沒給。

這是迄今爲止ü試圖代碼:

import scrapy 


class BrickSetSpider(scrapy.Spider): 
    name = 'brick_spider' 
    start_urls = ['http://careers.dexcom.com/search-results'] 

    def parse(self, response): 
     SET_SELECTOR = '.jobs-list-item' 
     for brickset in response.css(SET_SELECTOR): 
      print "****************here we go****************" 
      """ 
      NAME_SELECTOR = 'h1 a ::text' 
      yield { 
       'name': brickset.css(NAME_SELECTOR).extract_first() 
      } 
      """ 
+1

您發佈的代碼不會__做任何事情。其中一半用三引號引起註釋,無論如何,它所做的只是定義一個從不_called_的類。向我們展示您嘗試的實際代碼及其輸出,以及您期望的代碼。 –

回答

2

不,「頁」在Scrapy的情況下並沒有「禮」帶班的「工作清單項目」,因爲它是純粹的HTML響應,而列表項目正在使用Ajax加載。

要看到頁面Scrapy看到它使用scrapy shell http://careers.dexcom.com/search-results,然後在控制檯中輸入view(response)出現。

要解析工作飼料,您需要使用像Splash(這在我看來是開銷)或只是找到Ajax提要URL,請求它並解析JSON響應。