2011-04-03 97 views
0

我有一個HTML文件池,並希望通過它們搜索相同的目標文本。它需要搜索他們的文本內容,而忽略所有的html標籤,標題,腳本等。使用正則表達式搜索HTML文件

我試過QRegExp,Qt中的正則表達式類,但找不到一個好的模式來做我以後。

我很感謝在這方面的任何幫助。

謝謝。

+2

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454似乎是義不容辭鏈接到 – 2011-04-03 19:36:13

+1

'如果(question.contains「 /(X | HT)ML /'和question.contains'正則表達式')add_comment('http://stackoverflow.com/questions/1732348/#1732454')' – 2011-04-03 20:01:05

+0

@Tim Sylvester:好點 - 除了你的正則表達式可以使用一點工作;它應該真的匹配「xhtml」。 – 2011-04-03 20:44:25

回答

0

這可能是也可能不是你的好答案,但你有沒有考慮過使用DOM解析器呢?這將消除需要過濾出什麼是文本和什麼是HTML標記。可悲的是,我不能推薦一個好的C++。

+0

http://lars.ruoff.free.fr/xmlcpp/ – 2011-04-03 21:12:15