2015-09-06 127 views
-1

我有一個日誌文件。 在日誌文件中我有很多線和各線包含這樣的事情:在每一行也時正則表達式匹配後得到這個單詞

我要趕標籤

<h4>adi</h4><small>08/02/2015 11:14:16</small> 

名稱之間h4不同,使用正則表達式的時間和日期在我可以找到名稱「adi」的行中,正如我所說,只有一行包含名稱「adi」。

順便說一句 - 日誌是html。

(?<=^<h4>adi</h4><small>)[^<]+ 

live demo

+1

您使用哪種語言?爲什麼你在標籤中有這些逗號? – Maroun

+0

那是一個非常奇怪的格式。什麼是所有的逗號?你也說過「使用正則表達式」,但我沒有看到爲什麼正則表達式應該是這樣做的首選方法。就我個人而言,我會先刪除逗號,然後使用XML解析器(例如,確保使用XML編碼的實體保持安全)。 – Dave

+0

我有逗號 - 只有在問題中,而不是在日誌 - 因爲如果我用逗號發佈它的網站就像我在我的問題中使用HTML – Dor12126

回答

1

這是你的目標輸入相匹配。

+0

'

Bradi

08/02/2015 11:14:16' – Dave

+0

@Dave儘管你的評論是不可能的(問題是'adi'在文件中是唯一的),這對於一般情況來說是一個很好的觀點,所以我收緊了正則表達式來錨定行。 – Bohemian

0

警告:謹慎行事。正則表達式不應該用於HTML解析。請改用解析器!

(?<=adi</h4>\s*<small>)[^<]+