角色讓我有些不乾淨的HTML:sed的 - 提取特定字符串中
"<table class="content divbackground"><tr><td class='title'> </td><td class='title'>From</td><td class='title'>To</td></tr><tr><td class='entry'>Monday</td><td class='entry'>09:00</td><td class='entry'>18:00</td></tr><tr><td class='entry'>Tuesday</td><td class='entry'>09:00</td><td class='entry'>18:00</td></tr><tr><td class='entry'>Wednesday</td><td class='entry'>09:00</td><td class='entry'>18:00</td></tr><tr><td class='entry'>Thursday</td><td class='entry'>09:00</td><td class='entry'>20:00</td></tr><tr><td class='entry'>Friday</td><td class='entry'>09:00</td><td class='entry'>20:00</td></tr><tr><td class='entry'>Saturday</td><td class='entry'>09:00</td><td class='entry'>18:00</td></tr><tr><td class='entry'>Sunday</td><td class='entry'>11:00</td><td class='entry'>18:00</td></tr></table></td></td>"
這是一家藥店的開放時間(信息發佈在一個公共寄存器)。
現在我可以使用解析器解析HTML,但是我發現這對錯誤並不穩健,我仍然需要取出<table>
和</table>
之間的代碼。
是否有搜索的所有出現一些不錯的UNIX命令(SED):
XX:XX
內<td></td>
標籤
其中X必須是一個數字?
你是什麼意思與*不潔* HTML? (請檢查你的問題,清楚地說明你在嘗試什麼,你嘗試過什麼問題發生了什麼) – hek2mgl 2015-04-02 08:31:17