1
我試圖刮幾1801 census pages與splashr
,可能有0到多個加載更多按鈕(因爲一次加載50個記錄)。此頁面應該有174刮飛濺的網頁和加載更多按鈕
url <- "https://digitalarkivet.no/en/census/district/tf01058443000001"
doc <- splash("localhost") %>% render_html(url, wait =3)
html_nodes(doc2, xpath="//h4[not(@class)]/a") %>% length()
[1] 50
我試圖載入網址下面更多,但只是再次獲得的第50個記錄。
url2 <- html_nodes(doc, xpath="//div[@class='load-more']") %>% html_attr("data-url")
[1] "https://digitalarkivet.no/en/census/related/rural-residences/tf01058443000001?page=2"
請注意,大多數地區有少於50個記錄,所以我不需要爲每個頁面點擊加載更多。
這很好,謝謝。 –