2013-04-10 64 views
0

我遇到了scrapy的問題。 當我使用scrapy蜘蛛來訪問一個網站。 20-30分鐘後,網站阻止我的抓取工具。 Scrapy總是返回500個代碼。 (DELAY_TIME = 10秒)抓取一些鏈接後網站禁止爬蟲

但是,如果我停止scrapy並立即開始。它可以正常爬行。我覺得這個網站阻止一個會話可以查看多個頁面?

如何在運行時更改scrapy的會話?或者解決這個問題?

回答

3

可以有多種方法來解決這個飽和問題。

首先您應該查看將放置在網站的root之上的robots.txt文件。以確保在本網站上是否允許刮擦。

只有在網站允許您禁用cookie的情況下,他們纔會在您的設置中嘗試COOKIES_ENABLED=False。大多數網站使用cookie跟蹤您的活動。

+0

謝謝。我使用了設置ROBOTSTXT_OBEY = True。我會嘗試使用COOKIES_ENABLED = False,但爲什麼我無法在http://doc.scrapy.org/en/latest/topics/settings.html找到此設置 – hoangvu68 2013-04-10 07:43:08

+0

是的,他們應該在設置中添加此設置,但不幸的是它在常見問題 https://scrapy.readthedocs.org/zh/latest/faq.html?highlight=COOKIES_ENABLED – 2013-04-10 07:52:35