在一個接受,存儲,處理和顯示Unicode文本的應用程序中(出於討論的目的,假設它是一個web應用程序),哪些字符應該總是從傳入文本中刪除?最小文本衛生
我能想到的一些,在C0 and C1 control codes Wikipedia article大多列出:
範圍
0x00
-0x19
(主要是控制字符),不含0x09
(製表符),0x0A
(LF),和0x0D
(CR )範圍
0x7F
-0x9F
(多個控制字符)
可以安全地接受接受的字符的範圍會更好地知道。
還有其他級別的文本過濾 - 一個可能規範化具有多個表示的字符,替換不間斷字符並刪除零寬度字符 - 但我主要關注基礎知識。
謝謝,但我不想限制文本到鍵盤字符,我只是想過濾出可能有意想不到的或危險的結果的字符,比如空字符。 – s4y 2010-07-08 16:10:11