2010-09-09 140 views

回答

27

常用的漢字/漢字字符在U + 4E00和U + 9FFF之間的「CJK統一表意文字」區塊中,UTF-8佔用3個字節。 (日本平假名和片假名字符也需要3個字節。)

但是,也有在「CJK統一漢字擴展B」一些非常很少使用的字符和「CJK兼容表意文字補編」塊,其採取4個字節在UTF-8。

另請注意,中文文本通常包含ASCII字符,如數字0-9。

+0

+1哇,顯然我們有中文使用者在計算器上。酷:-)。 – sleske 2010-09-10 09:17:11

+2

源自Shift-JIS的日文文本也可能包含映射到雙字節序列的其他非漢字,非ASCII字符。然後,我們很快就會有表情符號與之競爭,這也在基礎多語言平面之外,所以4字節... – bobince 2010-09-10 11:28:30

+2

@sleske:不,我不會說*中文。我在字符編碼方面做了太多工作。 – dan04 2010-09-10 13:17:17

2

是的,漢字是U + 4e00到U + 9faf,UTF8 3字節是U + 0800到U + FFFF。