轉換八位字節字符串轉換爲Unicode字符串，Python 3中

我試圖與八進制轉義的Unicode字符串轉換回正確的Unicode字符串如下，使用Python 3：轉換八位字節字符串轉換爲Unicode字符串，Python 3中

"training\345\256\214\346\210\220\345\276\214.txt"是讀入字符串。

"training完成後.txt"是字符串的實際表現，我正在努力獲得。

然而，SO飛掠之後，似乎建議的解決方案是在以下最無處不在我能找到的Python 3：

decoded_string = bytes(myString, "utf-8").decode("unicode_escape")

不幸的是，這似乎產生了錯誤的Unicode字符串時應用到我的樣本：

'trainingÃ¥Â®Â\x8cÃ¦Â\x88Â\x90Ã¥Â¾Â\x8c.txt'

這似乎很容易在Python 2做字節文字，以及，可惜似乎並沒有在PYT串一樣簡單hon 3.非常感謝，謝謝！ :)

來源

2017-10-09 coltonoscopy

假設你的出發字符串是Unicode字符串字面用反斜槓，你首先需要一個字節字符串使用unicode-escape編解碼器，但八進制轉義爲UTF-8，所以你需要再次轉換爲字節的字符串，然後解碼爲UTF-8：

>>> s = r'training\345\256\214\346\210\220\345\276\214.txt' 
>>> s 
'training\\345\\256\\214\\346\\210\\220\\345\\276\\214.txt' 
>>> s.encode('latin1') 
b'training\\345\\256\\214\\346\\210\\220\\345\\276\\214.txt' 
>>> s.encode('latin1').decode('unicode-escape') 
'trainingå®\x8cæ\x88\x90å¾\x8c.txt' 
>>> s.encode('latin1').decode('unicode-escape').encode('latin1') 
b'training\xe5\xae\x8c\xe6\x88\x90\xe5\xbe\x8c.txt' 
>>> s.encode('latin1').decode('unicode-escape').encode('latin1').decode('utf8') 
'training完成後.txt'

注意，latin1編解碼器確實Unicode的一個直接翻譯碼點U + 0000至U + 00FF的字節00FF。

來源

2017-10-09 15:31:25

這是偉大的，謝謝！ – coltonoscopy

此外，爲了讓我更好理解，您會介紹一些更詳細的內容*爲什麼在解碼爲utf-8之前需要使用拉丁-1編碼？ – coltonoscopy

@coltonoscopy在Python 3，你必須明確地編碼爲字節和解碼爲Unicode，所以你不能直接'.decode在Unicode字符串（「Unicode的逃離」）'。 '.encode（'latin1'）'是將字符串轉換回字節串的一種技巧，將碼點1：1轉換爲字節......假設當然你只有字符串中的U + 0000到U + 00FF碼點。第二個'.encode'（'latin1'）'是需要的，因爲在解碼之後，你有一個Unicode字符串，其中包含UTF-8編碼數據，所以它必須在解碼爲UTF-8之前轉換回字節。 –

轉換八位字節字符串轉換爲Unicode字符串，Python 3中

回答

相關問題