我想要構建一個刮擦幾個網站站點地圖的webscraper。我遇到過這種格式的幾次https://developer.mozilla.org/sitemap.xml。我想知道這是否是標準或者是否是標準。是否有標準化的網站地圖格式?
如果沒有一個什麼是最好的方式來刮取站點地圖?一個正則表達式,還是一些庫?
我想要構建一個刮擦幾個網站站點地圖的webscraper。我遇到過這種格式的幾次https://developer.mozilla.org/sitemap.xml。我想知道這是否是標準或者是否是標準。是否有標準化的網站地圖格式?
如果沒有一個什麼是最好的方式來刮取站點地圖?一個正則表達式,還是一些庫?
我認爲你應該爲此使用DOM API。並在那裏解釋站點地圖格式http://www.sitemaps.org/protocol.html
如果您使用Java,那麼Java Sitemap Parser可能會有所幫助。用PHP解析站點地圖被討論了here。