2011-10-31 54 views
0

我想解析HTML網頁(特別是谷歌的搜索結果頁) 尋找特定的計數器字符串regexpression [R]「關於52883038結果」

「關於*許多成果」

其中*many的範圍可以從0到999999999999結果

grep的( 「關於[0-9]的結果」,文件)

我想不出如何將數字範圍(包括逗號)合併到正則表達式中。任何人都可以澄清?我查找過類似的問題,但他們的代碼不適用於此任務。

我猜想介紹某種通配符「。」但我不認爲我正確地使用它 我腦子裏想的結構是

任何#時報{{#任何時間([0-9])}}

解決自己的問題... 沒有必須在所有

看中 「關於*結果」

正常工作

回答

0

根據頁面的內容,你的*工作,但可能會得到一個很長的和不正確的字符串。

如果你想確保你得到的只是數字,嘗試:

"About ([0-9]+|[0-9]{1,3}(,[0-9]{3})*) results" 

我和grep -E測試,它會給你拆組數字:

About 10000000 results 

以及作爲使用英式/英式慣例的分組號碼:

About 100,000 results 

但非非數字:

About a bajillion results 

或嚴重分組編號:

About 100,0 results