2015-06-27 73 views

回答

0

要獲得所有來自特定域的網頁 - 一個選項是查詢常見爬API網站:

http://index.commoncrawl.org

要列出所有來自特定域wikipedia.org頁面:

http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=*.wikipedia.org*/&showNumPages=true 

這說明你塊的多頁普通爬行從這個領域怎麼了(注意,您可以使用通配符如本例)。

然後進入每個頁面,並要求共同爬行到您發送的每個文件的JSON對象:

http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=en.wikipedia.org/*&page=0&output=json 

然後,您可以解析JSON,並通過現場獲取每個WARC文件:filename

link將幫助你。