標籤的目標文本我有我嘗試使用引入nokogiri(關於Ruby)來分析一些非常裸露的HTML:不使用引入nokogiri
<span>Address</span><br />
123 Main Street<br />
Sometown<br />
<span>Telephone</span><br />
<a href="tel:212-555-555">212-555-555</a><br />
<span>Hours</span><br />
M-F: 8:00-21:00<br />
Sat-Sun: 8:00-21:00<br />
<hr />
我唯一的標記是頁面內容周圍<div>
。我想要的每件東西都有一個<span>Address</span>
類型標籤。最後可以跟着另一個span
或hr
。
我想結束地址(「123 Main Street \ nSometown」),電話號碼(「212-555-555」)和開放時間作爲單獨的字段。
有沒有一種方法可以使用Nokogiri獲取信息,或者使用正則表達式執行此操作會更容易嗎?
用'(?= )'分隔上面的文字?然後清潔標籤? – nhahtdh 2013-02-13 16:37:04
使用Nokogiri。總是,總是_always_使用正則表達式的解析器來處理HTML/XML,除非你喜歡痛苦。 – iain 2013-02-13 18:03:05
你可以發佈你想要的輸出嗎? – 2013-02-13 18:24:52