[R從頁面

我想webscrape頁面上的5臺webscraping許多表格：www.lme.com/copper.asp[R從頁面

我可以webscape整個頁面，但我有刮的問題將表格轉換爲適當的數據框，而不使用HTML格式。

library(XML) 
lme.cu <- readHTMLTable('http://www.lme.com/copper.asp',stringsAsFactors = FALSE)

我將不勝感激您的幫助。

來源

2012-03-14 adam.888

你能更具體嗎？當我運行這個時，我在'lme.cu [[11]]'，'lme.cu [[13]]'等等中看到了這些表格。當然，這些表格需要清理一下，但這是與網刮的野獸的本質。 – joran 2012-03-14 18:08:36

我試圖刪除HTML格式，例如\ r \ n 12 \ r \ n，所以我只是在數據框中獲取數字。 – 2012-03-14 18:59:21

你確定這不是一個區域設置問題嗎？我沒有看到任何HTML，真的。我看到了需要清理的貨幣符號和一些標點符號（$ 8,500.00），以及大量帶有額外空格和換行符（'\ n'）的字符串，但沒有其他內容。正如Tyler所說，這一切似乎都很容易用gsub來處理。 – joran 2012-03-14 22:08:54

這通常需要reqex的東西。對不起，但這是刮擦藝術的一部分。我的兩個刮/清潔喜愛的正則表達式相關的功能gsub和strsplit爲：

gsub("Â", "", "edsÂedfde", fixed=TRUE) 
strsplit("e/d/sÂedfde", "Â", fixed=TRUE)[[1]][2]

的逗號您的號碼將需要如果你希望數據是數字要被刪除。

編輯：我還建議你看看我的朋友Bryan在這裏解析HTML數據時做的一些工作(LINK)。

來源

2012-03-14 21:23:46

gsub（「\\ n」，「」）; gsub（「，」，「。」）和gsub（「」，「」）也是一個很好的開始，我猜 – broussea 2012-03-14 22:13:55

太棒了。非常感謝你。 – 2012-03-19 17:24:51

回答

相關問題