2009-10-13 49 views
0

我一些文本與HTML文物,其中<和標籤>得到了下降,所以現在我需要的東西,將匹配一小p跟着一個大寫字母,像爲HTML文物正則表達式

pThe next day they.... 

而且我也需要一些能夠趕上尾隨/p的東西,這很容易。這些需要被剝離,即用python中的""代替。

我會用什麼RE?謝謝! Stephan。

回答

1

試試這個:

re.sub(r"(/?p)(?=[A-Z]|$)", r"<\1>", str) 

你可能想(這裏(?=[A-Z]|$))與像空白附加字符擴展邊界斷言。

1

我得到了。您可以使用反向引用,

import re 
smallBig = re.compile(r'[a-z]([A-Z])') 

... 
cleanedString = smallBig.sub(r'\1', dirtyString) 

這消除了小寫字母,但保持大寫字母在了「<」和「>」 html標籤的被剝奪的情況下,你坐下來與文字一樣

pSome款新品文字/ p

快速和骯髒,但它適用於我的情況。