當我打開url並閱讀它時,我無法識別它。但是當我檢查內容頭時,它說它被編碼爲utf-8。所以我試圖將其轉換爲unicode,它抱怨UnicodeDecodeError:'ascii'編解碼器無法解碼位置1中的字節0x8b:序號不在範圍(128)中使用unicode()。
提供錯誤字符集的urllib2 opener
.encode( 「UTF-8」)產生 UnicodeDecodeError錯誤: 'ASCII' 編解碼器不能在位置1解碼字節0x8b:在範圍序數不(128)
.decode(「UTF- 8「)生成 UnicodeDecodeError:'utf8'編解碼器無法解碼位置1中的字節0x8b:無效的起始字節。
我已經試過各種我能想出(我不擅於編碼)
我會很高興,如果我能得到這個工作。謝謝。
HTTP頭可能是錯的 - 尋找在HTML本身指定HTML元標記。它可能是Latin-1('.decode('latin-1')')。 – 2012-02-25 16:17:06
試過了。我很確定它是utf-8,因爲當我訪問該網站時,chrome sais是這樣。 – thabubble 2012-02-25 16:45:30
如果你的流真的是utf8編碼的話,'.decode(「utf-8」)'會起作用。所以,你必須誤解某件事。你能發佈給你帶來麻煩的URL(或:URL)嗎? – alexis 2012-02-25 17:32:21