在python中提取部分字符串

我必須解析python中的輸入字符串並從中提取某些部分。在python中提取部分字符串

字符串的格式是

(xx,yyy,(aa,bb,...)) // Inner parenthesis can hold one or more characters in it

我想要一個函數返回XX，YYYY和含AA，BB列表...等

我可以ofcourse試圖分裂做括號之類的東西，但我想知道是否有從一個字符串中提取這種信息的適當Python的方式

我有這樣的代碼工作，但有沒有更好的方式來做到這一點（沒有正則表達式）

def processInput(inputStr): 
    value = inputStr.strip()[1:-1] 
    parts = value.split(',', 2) 
    return parts[0], parts[1], (parts[2].strip()[1:-1]).split(',')

來源

2010-07-01 randomThought

如果內在價值被引用，你可以實際上只是'的eval（）'，雖然我肯定不會推薦它:) – 2010-07-01 02:33:16

http://gskinner.com/RegExr/ – 2010-07-01 03:35:53

如果你到RE過敏，你可以使用pyparsing：

>>> import pyparsing as p 
>>> ope, clo, com = map(p.Suppress, '(),') 
>>> w = p.Word(p.alphas) 
>>> s = ope + w + com + w + com + ope + p.delimitedList(w) + clo + clo 
>>> x = '(xx,yyy,(aa,bb,cc))' 
>>> list(s.parseString(x)) 
['xx', 'yyy', 'aa', 'bb', 'cc']

pyparsing也使得如果需要，可以輕鬆控制結果的確切形式（例如，將最後3個項目分組到自己的子列表中）。但我認爲最好的方面是如何自然（取決於你想要投入多少空間），你可以閱讀「語法規範」：一個開放的paren，一個單詞，一個逗號，一個單詞，一個逗號，一個open paren，單詞分隔列表，兩個封閉的圓括號（如果您發現上面s的任務不容易閱讀，我想這是我的錯，因爲不選擇更長的標識符;-)。

來源

2010-07-01 04:17:35

亞歷克斯，你銀色的魔鬼！我想我們可能會在一分鐘內發佈！ – PaulMcG 2010-07-01 05:22:20

@保羅，是的 - 當我開始寫我的時候，你的帖子不在那裏，我敢肯定，反過來也是一樣，所以我們一定在同一時間寫了很多東西！ – 2010-07-01 05:29:54

讓我們使用正則表達式！

/\(([^,]+),([^,]+),\(([^)]+)\)\)/

對陣，首先捕獲組含有XX，第二個包含YYY，分割第三對,，你有你的清單。

來源

2010-07-01 02:32:56

完全無關。它讓我想起了這個XKCD：http://xkcd.com/208/ – Caladain 2010-07-01 02:34:51

使用正則表達式肯定是一種好方法，是否有創建一個表達式，如sortof reverse printf並使用它來提取所需的部分？ – randomThought 2010-07-01 02:35:41

在C中有一個'sscanf'函數，但我不知道Python在標準庫中是否有等價物。也許有人在第三方庫中實現了它。 – 2010-07-01 02:40:08

我不知道這是更好的，但它是一個不同的方式來做到這一點。使用先前建議的正則表達式

def processInput(inputStr): 
     value = [re.sub('\(*\)*','',i) for i in inputStr.split(',')] 
     return value[0], value[1], value[2:]

或者，您可以使用兩個鏈接替換函數來代替正則表達式。

來源

2010-07-01 02:36:57 dave

這樣怎麼樣？

>>> import ast 
>>> import re 
>>> 
>>> s="(xx,yyy,(aa,bb,ccc))" 
>>> x=re.sub("(\w+)",'"\\1"',s) 
# '("xx","yyy",("aa","bb","ccc"))' 
>>> ast.literal_eval(x) 
('xx', 'yyy', ('aa', 'bb', 'ccc')) 
>>>

來源

2010-07-01 02:47:50 YOU

如果你的括號嵌套可以有任意的深度，然後使用regexen不會做，你需要一個狀態機或解析器。 Pyparsing支持遞歸語法使用前瞻性聲明class轉發：

from pyparsing import * 

LPAR,RPAR,COMMA = map(Suppress,"(),") 
nestedParens = Forward() 
listword = Word(alphas) | '...' 
nestedParens << Group(LPAR + delimitedList(listword | nestedParens) + RPAR) 

text = "(xx,yyy,(aa,bb,...))" 
results = nestedParens.parseString(text).asList() 
print results 

text = "(xx,yyy,(aa,bb,(dd,ee),ff,...))" 
results = nestedParens.parseString(text).asList() 
print results

打印：

[['xx', 'yyy', ['aa', 'bb', '...']]] 
[['xx', 'yyy', ['aa', 'bb', ['dd', 'ee'], 'ff', '...']]]

來源

2010-07-01 03:34:41 PaulMcG

+1，因爲它展示了'pyparsing'幾個更高級的特性，同時我堅持了非常基礎;-) – 2010-07-01 05:31:35

您的解決方案體面（簡單，高效）。如果您不信任數據源，則可以使用正則表達式來限制語法。

import re 
parser_re = re.compile(r'\(([^,)]+),([^,)]+),\(([^)]+)\)') 
def parse(input): 
    m = parser_re.match(input) 
    if m: 
     first = m.group(1) 
     second = m.group(2) 
     rest = m.group(3).split(",") 
     return (first, second, rest) 
    else: 
     return None 

print parse('(xx,yy,(aa,bb,cc,dd))') 
print parse('xx,yy,(aa,bb,cc,dd)') # doesn't parse, returns None 

# can use this to unpack the various parts. 
# first,second,rest = parse(...)

打印：

('xx', 'yy', ['aa', 'bb', 'cc', 'dd']) 
None

來源

2010-07-01 05:12:16

在python中提取部分字符串

回答

相關問題