2012-04-02 110 views
0

我想爲this頁面的右側列出的地方提取緯度和經度。我想創建像下面這樣的表:刮掉html頁面的超鏈接

Place Latitude Longitude 
Agarda 23.12604 87.19869 
Ahanda 23.13099 87.18501 
..... 
..... 
West-Sanabandh 23.24876 86.99941 

是否有可能做到這一點R中沒有調用爲「Agarda:,‘Ahanda’......等等。一次一個單獨的超鏈接

+0

我沒有時間給你一個完整的工作例子,但看看我是如何刮族譜檔案:https://github.com/romunov/GEDCOM-archives/blob/master/gedcom-檔案.R – 2012-04-02 11:29:24

回答

3

數據出現在不同的頁面,你不能獲得這些數據而無需請求每一頁。

如果R支持線程,那麼你可以把它們並聯起來,而不是一次一個。

+0

那就是我的想法。感謝您的確認,Quentin。 – user702432 2012-04-03 16:44:53

1

這是可能使用RCurl在某些類型的循環中刮取每一頁或sapply。如果你將它與一些正則表達式和/或readHTMLTable(用於標識超鏈接)相結合,那麼它是一個相對簡單的函數。

在RCurl中,可以創建一個多線程來並行執行此操作,但考慮到涉及的查詢數量,它可能會輕鬆將其序列化並在查詢之間放置一個小型系統睡眠。