抓取一些鏈接後網站禁止爬蟲

我遇到了scrapy的問題。當我使用scrapy蜘蛛來訪問一個網站。 20-30分鐘後，網站阻止我的抓取工具。 Scrapy總是返回500個代碼。（DELAY_TIME = 10秒）抓取一些鏈接後網站禁止爬蟲

但是，如果我停止scrapy並立即開始。它可以正常爬行。我覺得這個網站阻止一個會話可以查看多個頁面？

如何在運行時更改scrapy的會話？或者解決這個問題？

來源

2013-04-10 hoangvu68

可以有多種方法來解決這個飽和問題。

首先您應該查看將放置在網站的root之上的robots.txt文件。以確保在本網站上是否允許刮擦。

只有在網站允許您禁用cookie的情況下，他們纔會在您的設置中嘗試COOKIES_ENABLED=False。大多數網站使用cookie跟蹤您的活動。

來源

2013-04-10 07:34:31

謝謝。我使用了設置ROBOTSTXT_OBEY = True。我會嘗試使用COOKIES_ENABLED = False，但爲什麼我無法在http://doc.scrapy.org/en/latest/topics/settings.html找到此設置 – hoangvu68 2013-04-10 07:43:08

是的，他們應該在設置中添加此設置，但不幸的是它在常見問題 https://scrapy.readthedocs.org/zh/latest/faq.html?highlight=COOKIES_ENABLED – 2013-04-10 07:52:35

抓取一些鏈接後網站禁止爬蟲

回答

相關問題