如何讀取網站地圖及其目錄？

http://www.dictionary.com

而且檢查robots.txt

User-agent: * 
Disallow: /site= 
Disallow: /5480.iac. 
Disallow: /go/ 
Disallow: /audio.html/ 
Disallow: /houseads/ 
Disallow: /askhome/ 
Disallow: /cite.html 
Disallow: /23219321/iac. 

Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml

後從站點地圖上的鏈接我能下載和閱讀。所以我的問題是我如何閱讀網站地圖，並找到它不允許我使用的目錄。

很抱歉，如果我的問題是太模糊了，但我不明白這是如何工作，我是新來的這個問題。

來源

2017-02-18 kundu kana

Sitemap的目的是幫助搜索引擎索引的網站。它不應包含robots.txt文件中不允許使用的任何網址。 –

@DanNagle因此，我被允許使用自己的網絡爬蟲「網絡爬蟲」網站？ –

您不得檢索路徑以/site=，/5480.iac.，...，/cite.html或/23219321/iac.開頭的網址。

例如，

你不允許抓取網址，像這樣的：

http://www.dictionary.com/go/ 
http://www.dictionary.com/go/foo 
http://www.dictionary.com/go/foo/bar

你允許抓取網址，像這樣的：

http://www.dictionary.com/go 
http://www.dictionary.com/go.html 
http://www.dictionary.com/foo/go/

如果網站地圖包含根據robots.txt不允許抓取的網址，但它仍然不允許d讓你抓取它們。
雖然它可能似乎有悖常理，包括不應該在站點地圖抓取的網址，它可以使意義（例如，因爲網站地圖被使用的其他藥物不是爬蟲，或因爲只有少數特定的漫遊不允許抓取）。

來源

2017-02-19 03:04:11 unor

如何讀取網站地圖及其目錄？

回答

相關問題