scrapy

    0熱度

    1回答

    我是Scrapy/ProxyMesh的新手。 我對Proxymesh服務器的請求似乎正在工作,因爲我在ProxyMesh網站上看到了我的帶寬消耗,並且meta.proxy在我的日誌中正確。 但是,當我在Scrapy中記錄響應頭時,我沒有收到我應該收到的X-Proxymesh-IP。 這是我的代碼。我究竟做錯了什麼? 這是我中間件 class Proxymesh(object): def __i

    1熱度

    1回答

    我正在嘗試使用scrapy和scrapy-splash獲取請求狀態代碼,下面是spider代碼。 class Exp10itSpider(scrapy.Spider): name = "exp10it" def start_requests(self): urls = [ 'http://192.168.8.240:8000/xxxx'

    0熱度

    1回答

    我目前正在構建我的第一個scrapy項目。目前我正在嘗試從HTML表格中提取數據。這裏是我的抓取蜘蛛至今: import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from digikey.items import DigikeyIte

    0熱度

    1回答

    嗨我試圖抓取有輸入文本的網站。每當我點擊輸入文本時,都會有輸入文本值的下拉建議。它不在選擇標籤上。 這些建議的值是在div標籤元素中。有近200個div /建議。 我所做的是使用scrapy使用xpath/css選擇器從中刮除。當我使用「查看頁面源代碼」而不是「查看元素」查看代碼時,我發現這200個div實際上是隱藏的。 請幫忙。謝謝

    0熱度

    2回答

    我已經遇到了一個問題,我已經把一個蜘蛛放在一起。我試圖從this site的抄本中找出各行文字以及相應的時間戳,並找到了我認爲合適的選擇器,但運行時,蜘蛛的輸出只是最後一行和時間戳。我見過一些其他類似問題的人,但還沒有找到解決我的問題的答案。 這裏是蜘蛛: # -*- coding: utf-8 -*- import scrapy from this_american_life.items i

    0熱度

    2回答

    我正在學習scrapy(與飛濺)和建立一個蜘蛛來從js啓用頁面刮取結果。我的蜘蛛工作,並返回js頁面的結果。然而,它並沒有從這個鏈接https://www.zara.com/us/en/bejewelled-appliqu%C3%A9-dress-p07854034.html?v1=4818592&v2=733885 xpath used: //*[contains(concat(" ", @cl

    1熱度

    1回答

    我刮一個XML站點地圖包含特殊字符,如é,導致 ERROR: Spider error processing <GET [URL with '%C3%A9' instead of 'é']> 我如何獲得Scrapy保持原來的網址不變,即用它的特殊性格? Scrapy == 1.3.3 的Python 3.5.2 == (我需要堅持這些版本) 更新:每https://stackoverflow.

    0熱度

    2回答

    我有一個包含json文本的字符串。 我把它轉換成原始字符串由 json_raw = "%r"%json_all 然後我嘗試加載它 json_dict = json.loads(json_raw) 給我的錯誤JSONDecodeError: Expecting value: line 1 column 1 (char 0) 要調試我做print(json_raw),並在控制檯輸出給我: '{

    0熱度

    1回答

    這是我的網頁scrapy的簡單結構。 import scrapy,urllib.request class TestSpider(scrapy.Spider): def __init__(self, *args, **kw): self.timeout = 10 name = "quotes" allowed_domains = ["finance.

    3熱度

    4回答

    我想從雅虎財經獲得scrapy的最高歷史價格數據。 這裏是fb(facebook)最大歷史價格數據的網址。 https://query1.finance.yahoo.com/v7/finance/download/FNMA?period1=221115600&period2=1508472000&interval=1d&events=history&crumb=1qRuQKELxmM 爲了寫一