爲什麼我的preg_match_all語句捕獲比它應該更多？

-1

我正在清理並將內容遷移到新網站。在一些現有頁面中，嵌入圖像鏈接到非標準文件夾中的文件。爲什麼我的preg_match_all語句捕獲比它應該更多？

我拉數據庫中的記錄，然後做一個「preg_match_all」來捕獲違規項目。然後我的意圖是清理文件名，移動違規文件，然後更新數據庫條目以反映新位置。

但是，由於某種原因，我的正則表達式似乎只發現一個匹配（已知的多個潛在命中），有時似乎捕獲了我想要的字符串下游的其他東西的整個負載。

這是我使用的表達模式：

(?i)(<img.*src="uploads/RTEmagicC_(.*)")/

這是我對匹配的來自數據庫的內容的示例：

BLAH BLAH BLAH<img src="uploads/RTEmagicC_Herpes_simpex_virus.jpg.jpg" alt="HSV particles" style="FLOAT: left; WIDTH: 214px; HEIGHT: 198px" title="Electron micrograph of HSV particles©NASA">blah blah blah<img src="uploads/RTEmagicC_Herpes_labialis_01.jpg.jpg" alt="Coldsore" style="FLOAT: right;" title="Cold sore on the lower lip (cluster of fluid-filled blisters = very infectious). These infections may appear on the lips, nose or in surrounding areas.©Metju12" width="238" height="178">blah blah blah

我試圖抓住： "Herpes_simpex_virus.jpg.jpg"和"Herpes_labialis_01.jpg.jpg"和各自的完整鏈接例如： "img src="uploads/RTEmagicC_Herpes_simpex_virus.jpg.jpg"

但它也匹配一堆下游內容，超出了關閉文件名的"。

有人能讓我擺脫我的痛苦嗎？我已經嘗試了幾個晚上在這個，顯然我正在做一些愚蠢的事情，但我不明白...

非常感謝。

來源

2016-11-09 Chris

不要使用正則表達式來解析HTML，請使用像DOMDocument這樣的HTML解析器。 – Barmar

謝謝;但我必須承認，我不知道如何做到這一點或不使用正則表達式背後的理由。你能解釋一下，還是請給我一個參考？謝謝 – Chris

看到http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – Barmar

-1

默認情況下，正則表達式是貪婪匹配的，所以.*儘可能匹配，包括其他"直到最後"它可以找到。在img之後使用.*也是如此。你可以使用延遲匹配，儘可能少匹配，爲你的量詞增加一個?，所以在你的情況下，這將是(?i)<img.*?src="uploads/RTEmagicC_(.*?)"。

對於您的測試字符串，您不需要.*?，簡單的\s+（匹配一個或多個空格字符）就足夠了 - 但這可能不適用於所有數據。您也可以用[^"]*替換第二個.*?，匹配任意數量的非引號。

來源

2016-11-09 23:15:27

非常感謝您;但是，我現在沒有捕獲RTEmagicC_位的下游文件名。這是什麼出來： 0 =>' HSV particles ' 「下脣脣皰疹（充滿液體的水泡簇=非常具有感染性），這些感染可能出現在嘴脣，鼻子或周圍區域©Metju12」width Chris

你是什麼意思？ https://regex101.com/r/gubOWj/1 –

道歉 - 它發佈之前，我有機會完成打字。 – Chris

爲什麼我的preg_match_all語句捕獲比它應該更多？

回答

相關問題