2015-10-04 40 views
-1

我正在嘗試使用Google Regex Scraper擴展程序來從Web上刮取Yelp中的一些項目!網站。試圖使用此正則表達式來匹配美國街道地址而不解析。 對不起,以前的混亂爲什麼這些RegExes不會抓取整個單詞/字符串?

6805 Vista的德爾馬LN

1320ê200秒

\<span\sitemprop\=\"streetAddress\"\>\"?(\d{1,5}\s[NEWS]?\s?\w*\s\w*\s?\w*?\s?\w*?\"?)\<?b?r?\>?\"?\w+?\s?\w+?\"?\<\/span\> 

幫助的人?

+0

。像這樣的正則表達式不容易做,而且總是很難理解。 –

+0

您的正則表達式表明您正在解析HTML,但您的示例字符串沒有HTML。你在使用什麼語言,你看過解析器嗎? – chris85

+0

[你無法用正則表達式解析html](http://stackoverflow.com/a/1732454/4342498) – NathanOliver

回答

0

你的「問題」是缺乏大量的信息,但是從我收集要通過一個可選的<br>,然後你的東西不感興趣可選"繞過它,跟着讀<span>標籤上的地址..你的RE似乎過於複雜,除非涉及到一些語法檢查(在問題中沒有提到)。 如何:

<span\b.*?>"?(\d{1,5}.*?)"?(?:<br>|<\/span>) 

它保持唯一明顯的語法檢查你有,即街道號碼存在,1至5位,但節選了,抓住一切都交給無論是<br></span>,不含周邊引號。你對North,East的測試並沒有真正做到。所有其他的「斬斷」RE都超出了我的理解。

但是,正如評論所說,使用HTML解析器來提取您想要解釋的文本。

不管怎麼說,給它一個嘗試;)

問候

我建議不要使用正則表達式解析HTML,而是用一個實際的解析器,而不是
相關問題