-1
我正在嘗試Web Data Commons轉儲內的有趣數據。我需要花一天時間在我的機器上對其進行處理(並行)。是否有一個索引在哪裏涵蓋哪些網站以及從這些網站中提取特定的功能?從Web Data Commons獲取給定網站數據的方法?
我正在嘗試Web Data Commons轉儲內的有趣數據。我需要花一天時間在我的機器上對其進行處理(並行)。是否有一個索引在哪裏涵蓋哪些網站以及從這些網站中提取特定的功能?從Web Data Commons獲取給定網站數據的方法?
要獲得所有來自特定域的網頁 - 一個選項是查詢常見爬API網站:
要列出所有來自特定域wikipedia.org頁面:
http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=*.wikipedia.org*/&showNumPages=true
這說明你塊的多頁普通爬行從這個領域怎麼了(注意,您可以使用通配符如本例)。
然後進入每個頁面,並要求共同爬行到您發送的每個文件的JSON對象:
http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=en.wikipedia.org/*&page=0&output=json
然後,您可以解析JSON,並通過現場獲取每個WARC文件:filename
這link將幫助你。