scrapy-pipeline

    0熱度

    1回答

    我想訪問變量self.cursor以利用活動的postgreSQL連接,但我無法弄清楚如何訪問scrapy的管道類實例。 class ScrapenewsPipeline(object): def open_spider(self, spider): self.connection = psycopg2.connect( host= os.environ['HOS

    1熱度

    1回答

    我有以下Scrapy解析方法: def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.add_value('image

    0熱度

    1回答

    我正在使用Scrapy-Splash請求獲取頁面的渲染截圖,但我也需要該頁面上的圖像。我使用流水線來下載這些圖像,但我在想 - 這是不是對同一圖像發出兩個請求?一旦Splash呈現頁面,並且一次發送下載請求時。有沒有一種方法可以讓Scrapy-Splash請求返回圖像?

    1熱度

    1回答

    我目前正在最後確定一個Scrapy項目,但我有一個相當長的pipelines.py文件。 我注意到,在我的settings.py的管道可以顯示如下(下調): ITEM_PIPELINES = { 'proj.pipelines.MutatorPipeline': 200, 'proj.pipelines.CalculatorPipeline': 300, 'proj.

    0熱度

    1回答

    合併輸出我有一個Scrapy輸出是這樣的: [{'gender': 'women', 'name': 'NEW IN: CLOTHING', 'products': [{'name': 'Free People Cocoon Multi Way Neck Top', 'price': {'currency': 'GBP', 'outlet'

    0熱度

    1回答

    重要提示:所有可用在計算器上的那一刻答案是Scrapy的早期版本和不scrapy的最新版本1.4的工作 完全陌生的scrapy和蟒蛇,我試圖刮一些頁面,並下載圖像。正在下載圖片但它們仍然具有原始的SHA-1名稱作爲文件名。 我不知道如何重命名文件,他們實際上都有SHA-1文件名。 試圖將它們重命名爲「測試」,並且在運行scrapy crawl rambopics以及url數據時,輸出中出現「測試」

    1熱度

    2回答

    使用我很新的Scrapy,想嘗試以下操作: 從網頁中提取一些值,將其存儲在一個變量,在我的主要腳本中使用它。 所以我也跟着他們的教程,並改變了代碼爲我的目的: import scrapy from scrapy.crawler import CrawlerProcess class QuotesSpider(scrapy.Spider): name = "quotes"

    0熱度

    2回答

    我有以下設置(碼頭工人): 芹菜掛瓶安裝運行於Scrapy蜘蛛 瓶設置(顯然) 瓶設置獲取請求Scrapy - >啓動工人做一些工作 現在我想更新芹菜工人的進展原始瓶設置。 但是現在沒有辦法在刮刀內部使用celery.update_state(),因爲它無法訪問原始任務(雖然它在芹菜任務中運行)。 順便說一句:我錯過了關於scrapy結構的一些事情嗎?這似乎是合理的,我可以分配的__init__內

    0熱度

    1回答

    我試圖從網站(IMDB)使用'scrapy'包得到一些數據。 如果在div類中有image_URL,那麼我可以使用電影海報來抓取數據。但是,如果沒有,我的代碼無法正常工作。它跳過了一些與圖像相關的數據。 我想修復它像沒有image_URL然後忘了圖像,只是抓取數據。 我該如何解決除零件之外的問題? 高清解析(個體經營,響應): //some other lines try: pos

    0熱度

    2回答

    我正在嘗試使用Scrapy爲大學項目構建一個小應用程序。 蜘蛛抓取的項目,但我的管道沒有插入數據到MySQL數據庫。爲了測試管道是否不工作或pymysl執行不工作我寫了一個測試腳本: 代碼開始 #!/usr/bin/python3 import pymysql str1 = "hey" str2 = "there" str3 = "little" str4 = "script"