2011-01-28 63 views
1

我收到一些奇怪的字符作爲對網頁的迴應。我很確定它是用俄語寫的,但編碼似乎很奇怪。網頁信息告訴我編碼是ISO-8859-1。這是示例迴應。確定文字的編碼

Âû ñòðàíè÷êå ïðåâüþøêàìè 

是否有解密此響應的方法?答案是否可以挽回?

+1

ISO-8859-1 = ASCII – 2011-01-28 14:05:28

+0

我得到了響應,字節串。現在我知道了編碼,我該如何使用python腳本來解碼文本? – Neo 2011-01-28 14:36:54

回答

4

它看起來像編碼實際上是西里爾文Windows-1251。相應地切換您的網頁瀏覽器編碼。

例如,在編碼提供的文字是:

Выстраничкепревьюшками

其中自動翻譯說的意思是 「你網頁預覽」。

3

幾乎不可能自動識別8位編碼,因爲所有字節組合在技術上都是有效的。在這種情況下,我敢肯定它是Windows-1251,因爲角色是相當有意義的有:

Выстраничкепревьюшками

這顯然不是ISO-8859-1。

對於這種轉換成Unicode字符串,用decode方法:

b = "Âû ñòðàíè÷êå ïðåâüþøêàìè".encode("Latin-1") # simulate the incoming byte string 
u = b.decode("Windows-1251") 
print(u)