正則表達式匹配空白，但跳過部分

我明白了，因爲正則表達式本質上是無狀態的，要實現複雜的匹配而不訴諸補充應用邏輯是相當困難的，但是我很想知道下面是否可能。正則表達式匹配空白，但跳過部分

匹配所有的空白，很容易：\s+

但跳過某些分隔符之間的空白，在我的情況 ~~<pre>和 </pre>~~ 字nostrip。

是否有任何技巧可以實現這個目標？我正在考慮沿着兩個單獨的比賽，一個爲所有空白，一個爲 ~~<pre>塊~~ nostrip部分，並以某種方式否定後者從前者。

"This is some text NOSTRIP this is more text NOSTRIP some more text." 
// becomes 
"ThisissometextNOSTRIP this is more text NOSTRIPsomemoretext."

給出標籤 NOSTRIP部分是無關緊要的，我不會試圖解析 ~~的嵌套樹~~ HTML或任何，只是整理一個文本文件，但節省了 ~~<pre> blocks~~ nostrip部分中的空格，原因很明顯。

（更好？）

這是最終我跟去了。我相信它可以在幾個地方進行優化，但現在它可以很好地工作。

public function stripWhitespace($html, Array $skipTags = array('pre')){ 
    foreach($skipTags as &$tag){ 
     $tag = "<{$tag}.*?/{$tag}>"; 
    } 
    $skipped = array(); 
    $buffer = preg_replace_callback('#(?<tag>' . implode('|', $skipTags) . ')#si', 
     function($match) use(&$skipped){ 
      $skipped[] = $match['tag']; 
      return "\x1D" . (count($skipped) - 1) . "\x1D"; 
     }, $html 
    ); 
    $buffer = preg_replace('#\s+#si', ' ', $buffer); 
    $buffer = preg_replace('#(?:(?<=>)\s|\s(?=<))#si', '', $buffer); 
    for($i = count($skipped) - 1; $i >= 0; $i--){ 
     $buffer = str_replace("\x1D{$i}\x1D", $skipped[$i], $buffer); 
    } 
    return $buffer; 
}

來源

2011-05-12 Dan

你在html上使用正則表達式嗎？爲什麼？ – 2011-05-12 20:51:51

實際上，你需要的更加複雜：正則表達式還需要確保在

和空格之間沒有

，反之亦然。 – abesto 2011-05-12 20:54:30

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – mellamokb 2011-05-12 21:02:22

我你使用的是腳本語言，我會使用多步驟的方法。

拔出NOSTRIP部分，並保存到一個數組中，並用標記替換（###或東西）
更換所有的空間
重新注入所有保存NOSTRIP網頁摘要

來源

2011-05-12 21:41:40 Matt

謝謝**馬特**;這就是我朝向的方向，我只是好奇如何在沒有多個步驟的情況下實現這一目標。另外，是** PHP **。我希望能夠按照某種方式「打斷」正則表達式解析，當它碰到一個'nostrip'標記時，然後在打到另一個時打開它。 – Dan 2011-05-12 21:46:25

另外，將作爲臨時分隔符使用的安全字符/字符是什麼？（*閱讀;你/你認識的其他人/標準慣例使用了什麼？*）我在想也許是一個晦澀的控制角色，比如'BEL' – Dan 2011-05-12 21:54:18

我總是發現自己在一次性情況下使用正則表達式，因此更容易理解該文件的唯一字符串。像「~~~」通常起作用。但是，正如你所建議的那樣，沒有一個萬無一失的字符串。你只能用更復雜的字符串來降低風險。試一下：##〜!!〜！##（（__＃ – Matt 2011-05-12 22:52:23

我曾經創造了一組功能，以減少HTML輸出空白：

function minify($html) { 
     if(empty($html)) { 
       return $html; 
     } 
     $html = preg_replace('/^(.*)((<pre.*<\/pre>)(.*?))?$/Ues', "parse('$1').'$3'.minify('$4')", $html); 
     return $html; 
} 

function parse($html) { 
     var_dump('1'.$html); 
     // Replace multiple spaces with a single space 
     $html = preg_replace('/(\s+)/m', ' ', $html); 
     // Remove spaces that are followed by either > or < 
     $html = preg_replace('/ ([<>])/', '$1', $html); 
     $html = str_replace('> ', '>', $html); 
     return $html; 
} 

$html = minify($html);

你可能有稍微修改以適應您的需求。

來源

2011-05-12 21:46:16 Arjan

謝謝** Arjan **;我會給它不久之後，他嘗試了一些東西。 – Dan 2011-05-12 21:52:56

正則表達式匹配空白，但跳過部分

回答

相關問題