1
我建立一個網絡爬蟲這個特定的網站如何讀取網站地圖及其目錄?
而且檢查robots.txt
User-agent: *
Disallow: /site=
Disallow: /5480.iac.
Disallow: /go/
Disallow: /audio.html/
Disallow: /houseads/
Disallow: /askhome/
Disallow: /cite.html
Disallow: /23219321/iac.
Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml
後從站點地圖上的鏈接我能下載和閱讀。所以我的問題是我如何閱讀網站地圖,並找到它不允許我使用的目錄。
很抱歉,如果我的問題是太模糊了,但我不明白這是如何工作,我是新來的這個問題。
Sitemap的目的是幫助搜索引擎索引的網站。它不應包含robots.txt文件中不允許使用的任何網址。 –
@DanNagle因此,我被允許使用自己的網絡爬蟲「網絡爬蟲」網站? –