我想刮一個新的stackexchange網站的主頁:https://webapps.stackexchange.com/(只有一次,只有幾頁,沒有什麼應該打擾服務器)。如果我想從stackoverflow中獲得它,我知道有一個數據庫轉儲,但是對於新的stackexchange,它們還不存在。如何從stackexchange首頁上刮掉「表格」數據? (在R)
這是我想要做的。
第1步:選擇URL
URL <- "https://webapps.stackexchange.com/"
第2步:讀取表
readHTMLTable(URL) # oops, doesn't work - gives NULL
第2步:這時候,讓我們嘗試將其與XML
htmlTreeParse(URL) # o.k, this reads the data - but it is all in <div> - now what?
所以我能夠讀取頁面,但現在結構是在div中。它現在怎麼可以用來創建與readHTMLTable相同的東西?
重複? http://stackoverflow.com/questions/1395528/scraping-html-tables-into-r-data-frames-using-the-xml-package – Shane 2010-08-20 17:32:56
另請參閱http://stackoverflow.com/questions/2998655/how- to-isolate-a-one-element-from-a-scraped-web-page-in-r/ – Shane 2010-08-20 17:55:43