2016-11-10 63 views
0

如何從字符串正則表達式使字符串有意義。蟒蛇

除去非英語單詞(詞彙),例如:

puppies monitoring_string = c1299fe10ba49eb54f197dd4f735fcdc dogtime 

如何刪除所有非英文單詞,保持詞彙: 的結果,我想得到的是:

puppies monitoring string dogtime 

puppies monitoring string ....or others 

的目的是使字符串有意義。

我的嘗試是:

re.sub('[^A-Za-z0-9]+', ' ', string) 
result: puppies monitoring string c1299fe10ba49eb54f197dd4f735fcdc dogtime 
+2

請定義'非英文單詞'。 – 2016-11-10 07:52:36

+0

非正確的詞彙 – bob90937

+2

正則表達式不是正確的工具。您需要一個單詞列表,然後用空格分隔字符串並查看單詞列表中的哪些條目。儘管這是一個有許多缺陷的簡單方法。 –

回答

0

想不出任何邏輯的話具有非言語不。

要開始,也許你可以嘗試用數字去除單詞。

正則表達式\w*\d\w*應該找到帶有數字和數字的字母組合。