使用re替代unicode字符串

我已經在ubuntu中使用pdftotext -raw /path/to/pdf.pdf /path/to/output.txt將pdf文檔轉換爲文件。我使用sample = open("/path/to/output.txt").read()讀取轉換後的文件。現在示例有未解碼的Unicode字符串，如\xe2\x80\x99。我想使用正則表達式替換它們''。我使用的模式re.sub(r"""\\\\"""," ",sample),re.sub(r'\\x..',"",sample),re.sub(r'\\\\x..'," ",sample)使用re替代unicode字符串

例如藉此

abc="[email protected]\n\x0c" 
re.sub(r'\\x..',"",abc) 
re.sub(r'\\\\x..'," ",abc) 
abc.encode("ascii","ignore")

我評價\\x..模式using this online regex tester選擇語言蟒蛇also this和this SO Question's answer使用基於參考\\\\x..模式，但兩者給我[email protected]\n\x0c作爲輸出。它不會刪除這些unicode字符串。我不想使用模式\\\w..，因爲它可能會選擇轉義序列。即使我嘗試過輸入UnicodeDecodeError的abc.encode（'utf8'）。我明白這個問題是因爲\x??正在被讀爲字符串，但我不知道如何解決這個問題。

如果你想在解決方案進行測試，請使用這些：

182\nWheel of Life, 24\xe2\x80\x9325, 135\xe2\x80\x93136 
\n194\xe2\x80\x93195 
CTI\xe2\x80\x99s\ntraining enables participants 
80\xe2\x80\x9383

這些測試串的預期輸出應該是

182\nWheel of Life, 2425, 135136 
\n194195 
CTIs\ntraining enables participants 
8083

注：

我ve也試過

abc=abc.decode("utf-8") 
abc=abc.encode("ascii","ignore")

這個刪除某些字符，但我仍然可以看到一些字符串像\x0c這是換所以我只想正則表達式的方式來替換這些字符串。

嘗試正則表達式：

abc="[email protected]\x0c\xc0ecoaches.com\n\x0c" #input 

re.sub(r'[\\x[a-fA-F0-7]-\\x[a-fA-F0-7]]+',' ',abc) 
re.sub(r'[^\x00-\x7F]+',' ',abc) 
re.sub(r'\\x..',"",abc) 
re.sub(r'\\\\x..'," ",abc)

請加原因downvoting。因爲它會幫助我理解我的錯誤。問題可能很簡單，但需要解決方案。我在這裏張貼之前已經做了很多的研究及嘗試，我希望人們「LL值它們

來源

2017-05-05 Mani

實測值的固定的字符範圍從\x00-\x7f包括在鍵盤中的所有字符，因此re.sub(r'[^\x00-\x7f]+','', abc)替換每個字符和結果是''

非可打印字符如\f\v被python解釋器識別爲\x0c\x0b，其中，其他非打印字符被識別爲例如：\n\r\b被識別爲\n\r\b。因此，爲了僅更換\x0c\x0b其\f\v到但跳過正則表達式將是re.sub(r'[\x0b-\x0c]','',(re.sub(r'[^\x00-\x7f]+','', abc)))或re.sub(r'[^\x00-\x7f]+','', abc).replace("\f","").replace("\v","")也適用

正則表達式替換從替換字符串和其他不可打印的字符\x0b,\x0c被保留其他轉義序列和字符。這也是由str.replace()的\f and \v

只有這兩個字符在python識別方面不同，因爲只有這些字符組合了其他兩個轉義序列的功能。

實施例：

\f ==> \n+\r 
\v ==> \n+\t

來源

2017-05-05 12:57:20 Mani

請訪問以下鏈接How does \v differ from \x0b or \x0c?

\ x不分開，這四個字符是一個組。

應用re.sub（R 「\ X0C」，「」，ABC）

來源

2017-05-05 11:46:10

使用re替代unicode字符串

回答

相關問題