2017-05-26 98 views
0

得到scrapy網址,鑑於你的標準scrapy應用:如何從外部應用程序

import scrapy 

class QuotesSpider(scrapy.Spider): 
    name = "quotes" 

    def start_requests(self): 
     urls = [ 
      'http://quotes.toscrape.com/page/1/', 
      'http://quotes.toscrape.com/page/2/', 
     ] 
     for url in urls: 
      yield scrapy.Request(url=url, callback=self.parse) 

我怎麼拉的網址從外部來源?我使用網絡服務嗎?我使用django還是數據庫連接?

scrapy是否期待我們對此進行硬編碼?

回答

0

只需將您在start_requests中的urls變量與您要刮取的URL列表一起設置即可。它不必硬編碼。

例如,如果你在Django中做到這一點,假設你有一個模型ScrapeUrl與場模型

urls = ScrapeUrl.objects.values_list('url', flat=True)

如果從API的,你可以使用requests來獲取它們。

不要忘記在訪問任何模型之前設置Django。

相關問題