我想爲this頁面的右側列出的地方提取緯度和經度。我想創建像下面這樣的表:刮掉html頁面的超鏈接
Place Latitude Longitude
Agarda 23.12604 87.19869
Ahanda 23.13099 87.18501
.....
.....
West-Sanabandh 23.24876 86.99941
是否有可能做到這一點R中沒有調用爲「Agarda:,‘Ahanda’......等等。一次一個單獨的超鏈接
我想爲this頁面的右側列出的地方提取緯度和經度。我想創建像下面這樣的表:刮掉html頁面的超鏈接
Place Latitude Longitude
Agarda 23.12604 87.19869
Ahanda 23.13099 87.18501
.....
.....
West-Sanabandh 23.24876 86.99941
是否有可能做到這一點R中沒有調用爲「Agarda:,‘Ahanda’......等等。一次一個單獨的超鏈接
數據出現在不同的頁面,你不能獲得這些數據而無需請求每一頁。
如果R支持線程,那麼你可以把它們並聯起來,而不是一次一個。
那就是我的想法。感謝您的確認,Quentin。 – user702432 2012-04-03 16:44:53
這是可能使用RCurl在某些類型的循環中刮取每一頁或sapply。如果你將它與一些正則表達式和/或readHTMLTable(用於標識超鏈接)相結合,那麼它是一個相對簡單的函數。
在RCurl中,可以創建一個多線程來並行執行此操作,但考慮到涉及的查詢數量,它可能會輕鬆將其序列化並在查詢之間放置一個小型系統睡眠。
我沒有時間給你一個完整的工作例子,但看看我是如何刮族譜檔案:https://github.com/romunov/GEDCOM-archives/blob/master/gedcom-檔案.R – 2012-04-02 11:29:24