捕獲在Python正則表達式匹配負

我試圖做一個非貪婪負的比賽，我需要捕獲它。我在Python中使用這些標誌，re.DOTALL | re.LOCALE | re.MULTILINE，做一些文本文件「數據庫」，其中每個領域開始與一個反斜槓一個新行的多行清理。每條記錄都以\ lx字段開頭。捕獲在Python正則表達式匹配負

\lx foo 
\ps n 
\nt note 1 
\ps v 
\nt note 
\ge happy 
\nt note 2 
\ge lonely 
\nt note 3 
\ge lonely 
\dt 19/Dec/2011 

\lx bar 
...

我想確保每個\ GE領域有它上面某處\ PS場的紀錄，一對一內。目前，一個\ ps後面往往有幾個\ ge，因此需要複製下來，就像上面兩個孤獨的\ ge一樣。

這裏最需要的邏輯：之後的任何\ PS場，但遇到另一個\ PS或\ LX之前，找到\ GE，然後找到另一個\ GE。捕獲所有內容，以便可以將\ ps字段複製到第二個\ ge之前。

這是我的非功能性的嘗試。替換此：

^(\\ps\b.*?\n)((?!^\\(ps|lx)*?)^(\\ge.*?\n)((?!^\\ps)*?)^(\\ge.*?\n)

與此：

\1\2\3\4\1\5

我甚至在一個很小的文件（34線長），得到一個內存錯誤。當然，即使這個工作，我不得不多次運行它，因爲它只是試圖處理第二\ GE，而不是第三或第四個。所以這方面的任何想法都會讓我感興趣。

更新：艾倫摩爾的解決方案效果很好，雖然有些案例需要稍微調整。可悲的是，我不得不關閉DOTALL否則我不能防止第一*包括後續\ PS域 - 甚至與非貪婪。*？形成。但我很高興在正則表達式點信息中瞭解了（？s）修飾符。這允許我關閉DOTALL，但仍然在其他正則表達式中使用它，它對於是必不可少的。

這是建議的正則表達式，凝聚到單行格式，我需要：

^(?P<PS_BLOCK>(?P<PS_LINE>\\ps.*\n)(?:(?!\\(?:ps|lx|ge)).*\n)*\\ge.*\n)(?P<GE_BLOCK>(?:(?!\\(?:ps|lx|ge)).*\n)*\\ge.*\n)

這工作，但是當我修改上面的例子中，插入上面的「記2」的\ PS。它也將\ lxs和\ ge2視爲\ lx和\ ge（需要一些\ b）。所以，我去一個稍微調整了版本：

^(?P<PS_BLOCK>(?P<PS_LINE>\\ps\b.*\n)(?:(?!\\(?:ps|lx|ge)\b).*\n)*\\ge\b.*\n)(?P<AFTER_GE1>(?:(?!\\(?:ps|lx|ge)\b).*\n)*)(?P<GE2_LINE>\\ge\b.*\n)

這種替換字符串：

\g<PS_BLOCK>\g<AFTER_GE1>\g<PS_LINE>\g<GE2_LINE>

再次感謝！

來源

2012-08-12 Jon Coombs

你試圖做的事是不可能的與一個常規的語言（*「上面的某處」*種類的那樣）。您應該簡單地編寫一個解析器或其他東西，並在運行中創建正確的輸出。 – poke 2012-08-12 20:32:27

我認爲這是正則表達式是錯誤的工具。 – MRAB 2012-08-12 22:08:07

我同意這是推動極限，但看到我回答比約恩的答案是因爲我的原因。 – 2012-12-13 16:32:11

因爲您使用了DOTALL標誌，所以出現內存錯誤。如果您的數據按照您展示的方式進行格式化，則無論如何您都不需要該標誌;默認行爲正是你想要的。您不需要非貪婪修飾符（?）。

試試這個正則表達式：

prog = re.compile(r""" 
    ^
    (?P<PS_BLOCK> 
     (?P<PS_LINE>\\ps.*\n) 
     (?:     # Zero or more lines that 
     (?!\\(?:ps|lx|ge)) # don't start with 
     .*\n    # '\ps', '\lx', or '\ge'... 
    )* 
     \\ge.*\n    # ...followed by a '\ge' line. 
    ) 
    (?P<GE_BLOCK> 
     (?:     # Again, zero or more lines 
     (?!\\(?:ps|lx|ge)) # that don't start with 
     .*\n    # '\ps', '\lx', or '\ge'... 
    )* 
     \\ge.*\n    # ...followed by a '\ge' line. 
    ) 
    """, re.MULTILINE | re.VERBOSE)

替換字符串是：

r'\g<PS_BLOCK>\g<PS_LINE>\g<GE_BLOCK>'

你還要做多遍。如果Python支持\G，那就沒有必要，但是您可以使用subn並檢查number_of_subs_made的返回值。

來源

2012-08-12 23:52:03

謝謝！只需一個小小的調整，對我來說非常有用。我在上面的問題的更新中添加了具體內容。我確實喜歡你詳細記錄的正則表達式，順便說一句，但不幸的是由於我的文本文件格式不得不將它壓縮成一行。 – 2012-08-13 15:18:25

任何您遇到問題，使用regexen並告訴自己一次：「我不得不多次運行它，..」那就是你需要寫一個解析器:-)

語言似乎是一個明顯的跡象是相當有規律，所以AA解析器應該很容易寫，也許一樣簡單的東西開始的：

def parse_line(line): 
    kind, value = line.split(' ', 1) # split on the first space 
    kind = kind[1:]     # remove the \ 
    parsed_value = globals().get('parse_' + kind, lambda x:x)(value) 
    return (kind, parsed_value) 

def parse_dt(value): 
    val = ... # create datetime.date() from "19/Dec/2011" 
    return val

它也許有點太可愛了使用globals()寫一個狀態機，也可節省一噸樣板代碼...:-)

將您輸入到元組的列表：

records = [parse_line(line) for line in open("myfile.dta")]

搞清楚，如果總是有("ps", ..)元組前("ge", ..)元組應該那麼是很容易 - 例如通過首先注意到所有的lx元組是...

來源

2012-08-12 22:26:15 thebjorn

等：看起來很華麗。我想在這裏使用正則表達式（即使代碼更簡單）的原因是我將一組有序的正則表達式存儲在文本文件中。所以，我提供了一個腳本，用戶可以運行甚至自定義腳本，並帶有描述和簡單的en /禁用每個正則表達式的方法，因此即使不知道正則表達式也可以自定義。（用純文本不需要轉義字符。）我所做的其他正則表達式更加合理。幾個使用。*多行;因此DOTALL。 – 2012-08-13 13:57:33

捕獲在Python正則表達式匹配負

回答

相關問題