Python的正則表達式：回顧後先行+與字符集

我想獲得字符串10M5D8P成詞典：Python的正則表達式：回顧後先行+與字符集

L：10，d：5，P：8等等...

字符串可能但它始終是一個數字，後面跟着這個字母表中的單個字母：MIDNSHP = X

作爲第一步，我希望將字符串拆分爲lookbehead和lookahead，在兩種情況下匹配此正則表達式：[0- 9] + [MIDNSHP = X]

所以我不工作的解決方案看起來像這樣此刻：

import re

re.compile（「（？（？= [0-9] + [MIDNSHP = X]）「）。split（」10M5D8P「）

它給我一個錯誤消息，不明白：「回顧後需要固定寬度模式」

來源

2015-07-20 user3182532

您可以使用re.findall

>>> import re 
>>> s = "10M5D8P" 
>>> {i[-1]:i[:-1] for i in re.findall(r'[0-9]+[MIDNSHP=X]', s)} 
{'M': '10', 'P': '8', 'D': '5'} 
>>> {i[-1]:int(i[:-1]) for i in re.findall(r'[0-9]+[MIDNSHP=X]', s)} 
{'M': 10, 'P': 8, 'D': 5}

你的正則表達式是行不通的，因爲re模塊不支持可變長度後向斷言。而且它也不支持在零寬邊界上分割，所以這個(?<=\d)(?=[A-Z])也不可能。

來源

2015-07-20 04:32:51

這是一個很好的解決方案，謝謝！但是我仍然很好奇爲什麼我的工作不行......？ – user3182532

參考此[回覆]（http://stackoverflow.com/a/23782359/3451543）：Python re模塊，因爲大多數語言（具有.NET的顯着例外），不支持可變長度lookbehind。 – mrorno

有關您的解決方案的問題：如果我說myregex = re.compile（「[0-9] + [MIDNSHP = X]」），爲什麼它不再工作，並將其作爲re.findall的第一個參數？ – user3182532

look-behind requires fixed-width pattern意思就是它所說的 - 一個隱藏式模式必須匹配Python引擎中固定數量的字符。特別是，不允許包含任何量詞（?,+,*）。因此，我們應該選擇一個固定寬度的一塊作爲我們回顧後使用：

(?<=[MIDNSHP=X])(?=\d)

這僅使用單個字符作爲回顧後和一位數字爲超前。但是，如果您嘗試使用split這個表達式，它將因Python bug 3262而失敗。你需要使用這樣的替代方法：

>>> re.compile(r"(?<=[MIDNSHP=X])(?=\d)").sub('|', '10M5D8P').split("|") 
['10M', '5D', '8P']

但這是非常醜陋的。一個簡單的辦法是使用findall到提取你想要什麼：

>>> re.findall('([0-9]+)([MIDNSHP=X])', '10M5D8P') 
[('10', 'M'), ('5', 'D'), ('8', 'P')]

，你可以很容易地創建一個字典，從其中：

>>> {k:int(v) for v,k in re.findall('([0-9]+)([MIDNSHP=X])', '10M5D8P')} 
{'P': 8, 'M': 10, 'D': 5}

來源

2015-07-20 04:41:03 nneonneo

我也喜歡這個，因爲它更通用，即捕獲允許具有不同長度的標識符（例如，10CG80M10GHJ）（儘管這在我的情況下不需要，但也許我將來需要這樣做） – user3182532

Python的正則表達式：回顧後先行+與字符集

回答

相關問題