2016-11-30 724 views
0

所以我想用空格將文本與標點符號分開。Python如何從文字中分離標點符號

my_text = "!where??and!!or$$then:)" 

我想要有一個! where ?? and !! or $$ then :)作爲結果。

我想要的東西就像使用Javascript,在那裏你可以使用$1來得到你的匹配字符串。我迄今爲止嘗試:

my_matches = re.findall('[!"\$%&\'()*+,\-.\/:;=#@?\[\\\]^_`{|}~]*', my_text) 

這裏my_matches是空的,所以我不得不從表達中刪除\\\

my_matches = re.findall('[!"\$%&\'()*+,\-.\/:;=#@?\^_`{|}~]*', my_text) 

我有這樣的結果:

['!', '', '', '', '', '', '??', '', '', '', '!!', '', '', '$$', '', '', '', '', 
':)', ''] 

所以我刪除所有冗餘條目是這樣的:

my_matches_distinct = list(set(my_matches)) 

和我有一個更好的結果:

['', '??', ':)', '$$', '!', '!!'] 

然後我通過自己和空格替換每一場比賽:

for match in my_matches: 
if match != '': 
    my_text = re.sub(match, ' ' + match + ' ', my_text) 

當然它不工作!我試圖把這個匹配作爲一個字符串來投射,但它不能正常工作......當我嘗試直接放置字符串來替換它的工作。

但我認爲我沒有做對,因爲我會遇到'!'的問題。 et'!!'對?

謝謝:)

+0

建議定義一個正則表達式時使用原始字符串字面量。另外,不要在字符類中逃脫任意符號,只有''''''必須總是被轉義,而其他符號可以被放置,以便它們不需要轉義。此外,你的正則表達式匹配一個空字符串 - 它確實 - 由於「*」。用'+'量詞替換。 –

+0

如果你想從你的字符串中刪除這些符號,爲什麼要使用're.findall'呢? –

+0

因爲我想把空間放在前面和這些符號組之後,我不知道如何存儲它? – MlleStrife

回答

1

建議定義一個正則表達式時使用原始字符串字面量。此外,不要在角色類中逃脫任意符號,只有\必須總是逃脫,其他人可以放置,以便他們不需要逃脫。此外,你的正則表達式匹配一個空字符串 - 它的確如此 - 由於*。用+量詞替換。另外,如果您想從字符串中刪除這些符號,請直接使用re.sub

import re 
my_text = "!where??and!!or$$then:)" 
print(re.sub(r'[]!"$%&\'()*+,./:;=#@?[\\^_`{|}~-]+', r' \g<0> ', my_text).strip()) 

Python demo

詳細:本[]!"$%&\'()*+,./:;=#@?[\^_`{|}~-]+匹配任何1+從符號集(注意,只有\這裏逃脫,因爲-末被使用,並且在]的開始類),並且替換插入空格+整個匹配(\g<0>是對整個匹配的反向引用)和空格。在正則表達式完成字符串處理後,.strip()將刪除前導/尾隨空白。

+1

再次感謝和抱歉,我笨拙的問題:( – MlleStrife

0

使用sub()方法在re庫中。你可以這樣做,如下所示,

import re 
str = '!where??and!!or$$then:)' 
print re.sub(r'([[email protected]#%\^&\*\(\):;"\',\./\\]+)', r' \1 ', str).strip() 

我希望這段代碼能夠解決你的問題。如果你對regex很明顯,那麼正則表達式部分不是什麼大不了的。只是它是使用正確的功能。

希望這會有所幫助!如果您有任何疑問,請發表評論。 :)


參考文獻:

Python re library

相關問題