2012-07-10 80 views
2

我遇到了使用正則表達式來匹配http鏈接的問題。我有一個模式,我想從網站源代碼中提取。源代碼有200個多行有很多HTML亂碼像</html><body... useless links useless images'R正則表達式:http匹配

,我需要屬於這一模式下的HTTP鏈接:

<a href"http:www.google.com/....1,1"> 
<a href"http:www.google.com/....2,2"> 
<a href"http:www.google.com/....3,3"> 

我只是想獲得的HTTP鏈接,和獨特的模式他們是結局。請幫助,我一直堅持幾個小時試驗gusb,regxpr和grep。

回答

6

正則表達式是難以企及的通用網址(URL Matching),但是如果你一直在尋找匹配的精確模式,你可以試試這個

`http:www\.google\.com/.*?(\d+),\1` 

這將爲HTTP搜索:www.google。 com隨後是任何內容,並以逗號兩邊的相同兩個數字結尾,這就是您顯示的模式所顯示的內容。

+3

+1爲方便的鏈接。 – 2012-07-10 12:56:36

+0

請注意,@ttmaccer將反斜槓加倍。你需要爲你的R正則表達式字符串做這件事,花了我一段時間來弄清楚。 – mac 2012-07-10 17:28:55

+0

@ttmaccer。我認爲只能找到最後一次發生。如果我將OP的文本用單引號括起來並分配給'text',那麼你的代碼返回'「3,3」'。任何方式獲得'「1,1」,「2,2」「3,3」'的向量? – GSee 2012-07-11 18:42:36