Python中修改的UTF-8字符串

我通過Python與Java應用程序接口。我需要能夠構造包含utf-8字符串的字節序列。 Java使用在DataInputStream.readUTF（）修訂的UTF-8編碼，這是不Python支持（yet at least）Python中修改的UTF-8字符串

任何人都可以點我在正確的方向來構建的Java修訂的UTF-8字符串在Python？

更新＃1：若要查看有關java修改的utf-8的更多信息，請查看第550行上的DataInput接口的readUTF方法here或here in the Java SE docs。

更新＃2：我試圖通過調用DataInputStream.readUTF使用此修改的utf8格式通過POST請求讀取字符串的第三方JBoss Web應用程序接口（抱歉，有關正常java utf8字符串操作的任何混淆）。

在此先感謝。

來源

2009-09-08 QAZ

「修改UTF-8」是什麼意思？據我所知，Java使用完全標準的UTF-8，如果你要求它編碼爲UTF-8。請注意，雖然Java的本地字符串格式是UTF-16。 – 2009-09-08 09:41:29

嗨，Jon，我在DataInput接口中添加了一個readUTF方法的鏈接，它提到了一點。我會嘗試挖掘更多信息。 – QAZ 2009-09-08 09:46:00

維基百科上有一些信息：http://en.wikipedia.org/wiki/UTF-8#Modified_UTF-8（所以，序列化，一些JNI和類內字符串常量）。 – McDowell 2009-09-08 09:47:48

好吧，如果您需要閱讀DataInput.readUTF的格式，我想您只需將（記錄完備的）格式轉換爲Python即可。

它看起來並不像特別難做。在讀取長度和二進制數據本身之後，我建議您使用第一遍來計算輸出中將有多少個Unicode字符，然後在第二遍中相應地構造一個字符串。在不瞭解Python的情況下，我不知道如何有效地構建字符串的細節，但是鑑於鏈接規範，我無法想象它會非常困難。您可能希望查看現有UTF-8解碼器的源代碼作爲起點。

來源

2009-09-08 09:54:37

也許這可以幫助你，雖然它看起來像它的你在做什麼相反：

Connecting a Java applet to a python SocketServer

來源

2009-09-08 09:58:45

可以忽略修訂的UTF-8編碼（MUTF-8）和剛將其視爲UTF-8。在Python方面，您可以像這樣處理它，

將字符串轉換爲普通的UTF-8並將字節存儲在緩衝區中。
以big-endian的二進制形式寫入2字節的緩衝區長度（不是字符串長度）。
寫下整個緩衝區。

我已經在PHP中完成了這個工作，Java根本沒有抱怨我的編碼（至少在Java 5中）。

MUTF-8主要用於JNI和其他帶有以空字符結尾的字符串的系統。與普通UTF-8唯一的區別是U + 0000是如何編碼的。正常的UTF-8使用1字節編碼（0x00），MUTF-8使用2字節（0xC0 0x80）。首先，在任何Unicode文本中都不應該有U + 0000（無效的代碼點）。其次，DataInputStream.readUTF()不強制執行編碼，因此它很樂意接受任何一種。

編輯：Python代碼應該是這樣的，

def writeUTF(data, str): 
    utf8 = str.encode('utf-8') 
    length = len(utf8) 
    data.append(struct.pack('!H', length)) 
    format = '!' + str(length) + 's' 
    data.append(struct.pack(format, utf8))

來源

2009-09-08 11:55:41

聽起來不錯，thansk。現在檢查它 – QAZ 2009-09-08 11:59:53

我正在學習Python，所以我轉換了我的PHP函數。 – 2009-09-08 12:18:35

U + 0000不是唯一的區別。對於將用UTF-16中的代理對錶示的代碼點，經過修改的UTF-8將對中的每個組件編碼爲獨立的UTF-8代碼點。這非常可怕，因爲這意味着您必須從「已修改的UTF-8」轉換爲UTF-16，然後返回以便對正確的代碼點進行編碼。 – Cogwheel 2013-01-30 19:55:59

我知道這個問題是非常非常老了，但我還是想貢獻，因爲我在同樣的問題了，解決它

我在openjdk源代碼中找到了這個修改後的utf8的實現，並將它轉換爲python。這裏是我創建的要點link。

來源

2017-12-30 19:05:16 bam

Python中修改的UTF-8字符串

回答

相關問題