2017-02-18 78 views
1

我建立一個網絡爬蟲這個特定的網站如何讀取網站地圖及其目錄?

http://www.dictionary.com

而且檢查robots.txt

User-agent: * 
Disallow: /site= 
Disallow: /5480.iac. 
Disallow: /go/ 
Disallow: /audio.html/ 
Disallow: /houseads/ 
Disallow: /askhome/ 
Disallow: /cite.html 
Disallow: /23219321/iac. 

Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml 

後從站點地圖上的鏈接我能下載和閱讀。所以我的問題是我如何閱讀網站地圖,並找到它不允許我使用的目錄。

很抱歉,如果我的問題是太模糊了,但我不明白這是如何工作,我是新來的這個問題。

+0

Sitemap的目的是幫助搜索引擎索引的網站。它不應包含robots.txt文件中不允許使用的任何網址。 –

+0

@DanNagle因此,我被允許使用自己的網絡爬蟲「網絡爬蟲」網站? –

回答

0

您不得檢索路徑以/site=/5480.iac.,...,/cite.html/23219321/iac.開頭的網址。

例如,

不允許抓取網址,像這樣的:

http://www.dictionary.com/go/ 
http://www.dictionary.com/go/foo 
http://www.dictionary.com/go/foo/bar 

允許抓取網址,像這樣的:

http://www.dictionary.com/go 
http://www.dictionary.com/go.html 
http://www.dictionary.com/foo/go/ 

如果網站地圖包含根據robots.txt不允許抓取的網址,但它仍然不允許d讓你抓取它們。
雖然它可能似乎有悖常理,包括不應該在站點地圖抓取的網址,它可以使意義(例如,因爲網站地圖被使用的其他藥物不是爬蟲,或因爲只有少數特定的漫遊不允許抓取) 。