RegEx問題 - 檢索給定類的標籤內容 - preg_match（_all）

我需要檢索給定類的標籤的內容。類可能是simplecomment或comment ...RegEx問題 - 檢索給定類的標籤內容 - preg_match（_all）

所以我寫了下面的代碼

preg_match("|(<p class=\"(simple)?comment(.*)?\">)(.*)<\/p>|ism", $fcon, $desc);

不幸的是，它沒有返回。但是，如果我刪除了標記結束部分（<\/p>），它會以某種方式起作用，使得字符串過長（從標記開始到文檔結束）...

我的正則表達式有什麼問題？

來源

2009-08-14 migajek

嘗試使用DOM解析器像http://simplehtmldom.sourceforge.net/

（如瀏覽器做的。）：

$html->find('div.simplecomment', 0)->innertext = '';

來源

2009-08-14 12:00:07 bjelli

建議第三第三方替代[SimpleHtmlDom]（http://simplehtmldom.sourceforge.net/）實際使用[DOM]（http://php.net/manual/en/book.dom.php）而不是字符串分析：[phpQuery ]（http://code.google.com/p/phpquery/），[Zend_Dom]（http://framework.zend.com/manual/en/zend.dom.html），[QueryPath]（http：/ /querypath.org/）和[FluentDom]（http://www.fluentdom.org）。 – Gordon 2010-10-06 16:03:56

這裏的權宜之計是：

'|(<p class="(simple)?comment[^"]*">)((?:[^<]+|(?!</p>).)*)</p>|is'

變化：

將構建(.*)將只是一味匹配的一切，從工作停止你的正則表達式，所以我把它換成那些實例完全具有更嚴格的匹配：
1. ... comment(.*)? ... – thi基本上，它將全部或全部匹配。我換成這跟自認爲[^"]*將匹配零個或多個非"字符（基本上，它會匹配到class屬性的收盤"字符。
2. ... >)(.*)<\/p> ... –再次，這將匹配太我已經用一個有效的模式代替它，它將匹配所有非<字符，一旦它遇到<它將檢查它是否跟着。如果是，它將停止匹配（因爲我們在標籤結束），否則會繼續。
我刪除了m因爲它在這個正則表達式中沒有用處。

但它不會是可靠的（想象......;它將匹配......）。爲了使其可靠，您需要使用遞歸正則表達式或（甚至更好）HTML解析器（或者XML，如果它是您處理的XHTML的話）。甚至有可以處理格式錯誤的HTML的庫「正確」如果我讀simplehtmldom主頁上的示例代碼正確你可以做這樣的事情

來源

2009-08-14 11:49:10 Blixt

RegEx問題 - 檢索給定類的標籤內容 - preg_match（_all）

回答

相關問題