2016-10-04 130 views
-4

我想從robots.txt文件包含這個網站刮一些數據,是不是這意味着我可以從任何地方刮,但wp-admin? 也有任何其他方式,我可以知道該網站允許抓取/抓取沒有任何阻塞? 對於抓取我使用Python Scrapy框架。什麼robots.txt意味着在這一行?

User-agent: * 
Disallow: /wp-admin/ 
Allow: /wp-admin/admin-ajax.php 
+0

檢查'robots.txt'總是看到,如果你允許刮的好方法。我也會檢查TOS和EULA。是的,這就是'robots.txt'的意思。 –

+0

http://stackoverflow.com/questions/37274835/getting-forbidden-by-robots-txt-scrapy/37278895#37278895 –

+0

我對TOS和EULA沒有任何想法,請給任何鏈接或一些細節,非常感謝! @MorganThrapp – Mohib

回答

1
在Scrapy較新版本的

,新設置的變量引入robotstxt_obey - 將跟隨如果啓用

BU默認它的價值True

正如評論所說,DOC機器人嚴格的txt確實說默認值是False,但是這種行爲在最新版本的scrapy中已經改變,現在默認爲True

+0

不知道,值被設置爲True!我沒有改變它。就是這樣。謝謝 – Mohib

+0

是的,對於自最近的scrapy版本以來通過'scrapy startproject'創建的每個新的scrapy項目,該值默認爲True。 – Granitosaurus

+0

是的,現在它默認爲「」「ROBOTSTXT_OBEY = True」「」,並且doc沒有反映最新的變化,已經在Github項目上提出了相同的PR – MrPandav