2014-08-28 108 views
3

大多數時間刮刀工作正常,但有時我得到獲取「ParseError」與Scrapy

2014-08-28 11:02:27-0700 [aqicn] DEBUG: Retrying <GET http://site_address_com/> (failed 1 times): [<twisted.python.failure.Failure <class 'twisted.web._newclient.ParseError'>>] 

我不明白爲什麼會發生。誰有同樣的問題?可能是它扭曲的錯誤?我試着找到一些東西,但我只有部分官方文檔。

+0

您在設置中要求的延遲時間是多少?嘗試減慢你的機器人,看看錯誤是否仍然存在。它發生在我之前,似乎是服務器無法趕上並最終超時。 – 2014-08-28 21:40:28

+0

你在說這個參數嗎? DOWNLOAD_DELAY = 1 – Infernion 2014-08-28 21:57:49

+0

是的,這就是我的意思。我認爲這對大多數網站來說都是一個體面的download_delay ...也許你可以嘗試將它改爲5並查看錯誤是否仍然存在? – 2014-08-28 22:00:37

回答

1

正如@nramirezuy和@B.Mr.W刮刀在現場被禁止。我使用TOR,現在我沒有得到這個錯誤。謝謝你們的幫助。

1

我想你是碰到this bug。正如你所看到的,現在還沒有正式的解決辦法,只需要在票上買一個猴子補丁。

+0

我有「」但在錯誤頁面「」。我認爲這是不同的。 – Infernion 2014-08-28 21:42:29

+0

@Infernion是同樣的錯誤,你可能使用另一個版本的scrapy; 'scrapy.xlib.tx'中的所有內容都是扭曲的擴展內容。你能重現這個網站嗎? (我假設你有捲曲)https://github.com/scrapy/scrapy/issues/345#issuecomment-41310605 – nramirezuy 2014-08-29 13:24:08

+0

你可以說哪裏放_monkey_patching_HTTPClientParser_statusReceived(),因爲我不是很瞭解 – Infernion 2014-08-30 08:09:41