2012-03-14 42 views
1

我想webscrape頁面上的5臺webscraping許多表格:www.lme.com/copper.asp[R從頁面

我可以webscape整個頁面,但我有刮的問題將表格轉換爲適當的數據框,而不使用HTML格式。

library(XML) 
lme.cu <- readHTMLTable('http://www.lme.com/copper.asp',stringsAsFactors = FALSE) 

我將不勝感激您的幫助。

+0

你能更具體嗎?當我運行這個時,我在'lme.cu [[11]]','lme.cu [[13]]'等等中看到了這些表格。當然,這些表格需要清理一下,但這是與網刮的野獸的本質。 – joran 2012-03-14 18:08:36

+0

我試圖刪除HTML格式,例如\ r \ n 12 \ r \ n,所以我只是在數據框中獲取數字。 – 2012-03-14 18:59:21

+0

你確定這不是一個區域設置問題嗎?我沒有看到任何HTML,真的。我看到了需要清理的貨幣符號和一些標點符號($ 8,500.00),以及大量帶有額外空格和換行符('\ n')的字符串,但沒有其他內容。正如Tyler所說,這一切似乎都很容易用gsub來處理。 – joran 2012-03-14 22:08:54

回答

1

這通常需要reqex的東西。對不起,但這是刮擦藝術的一部分。我的兩個刮/清潔喜愛的正則表達式相關的功能gsubstrsplit爲:

gsub("Â", "", "edsÂedfde", fixed=TRUE) 
strsplit("e/d/sÂedfde", "Â", fixed=TRUE)[[1]][2] 

的逗號您的號碼將需要如果你希望數據是數字要被刪除。

編輯:我還建議你看看我的朋友Bryan在這裏解析HTML數據時做的一些工作(LINK)

+0

gsub(「\\ n」,「」); gsub(「,」,「。」)和gsub(「」,「」)也是一個很好的開始,我猜 – broussea 2012-03-14 22:13:55

+0

太棒了。非常感謝你。 – 2012-03-19 17:24:51