scrapinghub

    0熱度

    1回答

    我有一個使用中間件通過pip安裝的scrapy項目。 更具體地說scrapy-random-useragent。 設置文件 # - - 編碼:UTF-8 - - # Scrapy settings for batdongsan project # # For simplicity, this file contains only settings considered important or

    1熱度

    1回答

    我正在關注這個link中有關序列化程序的文檔,我不確定是否缺少有關十進制序列化程序的文檔?我定義一個項目,像這樣一個scrapy領域: prize = scrapy.Field(serializer=Decimal, output_processor=TakeFirst()) scrapinhub店當這種價值,特別是包含逗號的數字我得到幾個錯誤。 是否有任何標準的方法來串行化小數?

    0熱度

    1回答

    如何停止將目標網址重定向至另一個具有驗證碼的網站確認頁面? 這裏是我下面的代碼: yield scrapy.Request(meta={'handle_httpstatus_list': [302], 'dont_redirect': True, 'redirect_enabled':False},url=url, callback=self.profileCategoryPages) 現在它

    2熱度

    2回答

    我有一個項目部署在Scrapinghub,我根本沒有任何該代碼的副本。 如何從Scrapinghub下載我的本地主機上的整個項目代碼?

    0熱度

    1回答

    蜘蛛停在爬網中間(7小時後,20K請求)。工作狀態是「失敗」。即使日誌中沒有ERROR消息。日誌看起來像代碼剛剛停止在特定的代碼行範圍上運行,沒有報告任何錯誤。它發生在spider_idle方法覆蓋中。日誌已啓用,我可以看到所有前面的INFO消息指示蜘蛛正常運行。我不知道如何在scrapinghub日誌中啓用DEBUG消息。 檢查內存消耗 - 它是穩定的,至少在短暫的測試中,現在正在等待長期運行結

    1熱度

    1回答

    我正在使用scrapy +飛濺插件,我有一個按鈕,通過ajax觸發下載事件,我需要獲取下載的文件,但不知道如何。 我的LUA腳本是一樣的東西從我的蜘蛛這個 function main(splash) splash:init_cookies(splash.args.cookies) assert(splash:go{ splash.args.url,

    1熱度

    1回答

    我正在使用ScrapingHub API,並且正在使用shub來部署我的項目。然而,該項目的結果是,如下所示: 不幸的是,我需要按以下順序 - >標題,發佈日期,描述,鏈接。我怎樣才能得到輸出到每個項目類的順序? 下面是我的蜘蛛很短的例子: import scrapy from scrapy.spiders import XMLFeedSpider from tickers.items im

    2熱度

    1回答

    在嘗試自行解決此問題後,我需要一些幫助或向正確方向推動。 我在Scrapinghub上編寫並部署了Scrapy蜘蛛。該蜘蛛收集一些數據,並在完成後將該數據保存到遠程Microsoft SQL Server。我使用SQLAlchemy作爲ORM和Pyodbc作爲驅動程序。 爲了連接到一個數據庫中蜘蛛的代碼,我使用: params = quote_plus('DRIVER={ODBC Driver 1

    0熱度

    1回答

    我有一隻蜘蛛會按時運行。蜘蛛輸入基於日期。從上次刮擦日期到今天的日期。所以問題是如何在Scrapy項目中保存最後一次刮擦的日期?有一個選項可以使用pkjutil模塊從scrapy設置獲取數據,但是我沒有在文檔中找到關於如何在該文件中寫入數據的任何參考。任何想法?也許是一種選擇? P.S.我的另一種選擇是爲此使用一些免費的遠程MySql數據庫。但如果簡單的解決方案可用,看起來更多的工作。 impor

    0熱度

    1回答

    我試圖將我的scratch數據放在雲上的firebase帳戶上,但是當我運行蜘蛛時,我得到了這個ImportError。我嘗試製作新項目,甚至在Python的特定版本上重新安裝了firebase和shub,但沒有任何幫助。 蜘蛛在我的機器上完美運行,並且不顯示任何ImportErrors。 這裏是錯誤日誌。 Traceback (most recent call last): File