Python在使用特殊字符時返回錯誤的字符串長度

我有一個字符串，我想根據字符位置獲得操作的長度等等。問題是，第一個是計數兩次，或者我猜'是在位置0和'是在位置1.Python在使用特殊字符時返回錯誤的字符串長度

Python中是否有任何可能的方式有一個字符像？代表1？

我正在使用UTF-8編碼實際的代碼和它被輸出到的網頁。

編輯：只是一些背景，爲什麼我需要這樣做。我正在致力於一個將英語翻譯成塞內加（一種美洲原住民語言形式）的項目，並顯示出相當多的內容。某些詞的某些重寫規則需要了解字母位置（本身和周圍字母）以及其他特徵（如口音和其他變音符號）的知識。

2010-02-11 roflwaffle

這是很容易在Perl做了'的Unicode :: GCString'模塊，其方法包括像'length'，'substr'和'index'這樣的標準東西，它們都以字符而不是代碼點或代碼單元進行操作。它甚至包含一個'columns'方法，這對於東亞寬/全字符以及結合字符等特別有用。這真的是你想要的，以及這些東西應該工作的方式。但是，我還沒有發現在Python中的等價物。 Perl比Python有更靈活和更強大的Unicode支持，並且在字符串方面很出色，所以你可能會考慮它。 – tchrist 2013-01-10 00:56:54

UTF-8是一種對特殊字符使用多於一個字節的unicode編碼。如果您不想要編碼字符串的長度，請簡單解碼並在unicode對象（而不是str對象！）上使用len()。

下面是一些例子：

>>> # creates a str literal (with utf-8 encoding, if this was 
>>> # specified on the beginning of the file): 
>>> len('ë́aúlt') 
9 
>>> # creates a unicode literal (you should generally use this 
>>> # version if you are dealing with special characters): 
>>> len(u'ë́aúlt') 
6 
>>> # the same str literal (written in an encoded notation): 
>>> len('\xc3\xab\xcc\x81a\xc3\xbalt') 
9 
>>> # you can convert any str to an unicode object by decoding() it: 
>>> len('\xc3\xab\xcc\x81a\xc3\xbalt'.decode('utf-8')) 
6

當然，您也可以訪問單個字符在unicode對象就像你在一個str對象做（他們都是從basestring繼承，因此有相同的方法）：

>>> test = u'ë́aúlt' 
>>> print test[0] 
ë

如果開發本地化的應用程序，它通常是一個好主意，在內部使用僅unicode -objects，通過你得到所有的輸入解碼。工作完成後，您可以再次將結果編碼爲「UTF-8」。如果你把這個原則，你永遠不會看到，因爲任何內部UnicodeDecodeError是你可能會得到，否則你的服務器崩潰;）

PS：請注意，該str和unicode數據類型已經在Python 3顯著變化在Python 3只有unicode字符串和純字節字符串不能再混合。這應該有助於避免常見的陷阱有統一的處理...

問候，克里斯托夫

來源

2010-02-11 19:47:05 tux21b

+++ 1 :-) aus .at – Flavius 2010-02-11 20:33:08

我認爲這個答案突出了問題 - 'ea'上的口音與問題中的口音不同:) – 2010-02-11 20:33:47

哦，你說得對。我想我在複製時失去了角色......對不起。不幸的是，似乎沒有可以表示口音的單個unicode字符。從來沒有見過類似的東西（至少我認識的德語變音可以寫成兩種方式，如單個和組合字符） – tux21b 2010-02-11 20:51:02

你能做的最好是用unicodedata.normalize()分解字符，然後篩選出口音。

不要忘記在代碼中使用unicode和unicode文字。

來源

2010-02-11 19:49:21

的問題是，所述第一E是被計算兩次，或我想E是在位置0和'是在位置1

是。這就是代碼點由Unicode定義的方式。在一般情況下，你可以要求Python來轉換一個字母和一個獨立的「結合」語音標記像U + 0301使用Unicode正常化組合重音符：

>>> unicodedata.normalize('NFC', u'a\u0301') 
u'\xe1' # single character: á

然而，在Unicode中沒有任何單個字符爲「e爲diaeresis和尖銳的口音「，因爲世界上沒有語言曾經使用過字母'ë'。（拼音音譯「有分音和尖銳的口音」，但不是'e'。）因此字體支持很差;它在許多情況下呈現得非常糟糕，並且在我的網絡瀏覽器上是一個雜亂的斑點。

要計算出Unicode碼點字符串中'可編輯點'的位置是一項棘手的工作，需要相當多的語言領域知識。這是「複雜文本佈局」問題的一部分，這個區域還包括諸如雙向文本和上下文glpyh整形和連字等問題。要做複雜的文本佈局，你需要一個庫，例如Windows上的Uniscribe，或者普遍的Pango（爲此有一個Python接口）。

如果，另一方面，你只是想完全忽略所有的組合字符做計數時，你可以擺脫他們很輕鬆地：

def withoutcombining(s): 
    return ''.join(c for c in s if unicodedata.combining(c)==0) 

>>> withoutcombining(u'ë́aúlt') 
'\xeba\xfalt' # ëaúlt 
>>> len(_) 
5

來源

2010-02-11 19:53:49 bobince

+1此答案適用。請注意，代碼部分中的ë顯示錯誤，但我認爲這只是一個字體/瀏覽器問題。 – 2010-02-11 21:18:03

這不是一個通用的解決方案。你需要一種方法來獲取字符，而不僅僅是代碼點，並且轉換爲NFC對於一般情況來說不夠好。在Perl中這很容易實現，Unicode :: GCString類支持substr（），index（）等基本操作，它們都可以在字形上使用。然後組合角色並不重要，而且這一切都是正確的。但是，據我所知，Python沒有這樣的模塊可用。 – tchrist 2013-01-10 00:53:21

-1

其中Python版本您使用的？ Python 3.1沒有這個問題。

>>> print(len("ë́aúlt")) 
6

問候 Djoudi

來源

2010-02-11 22:24:14

你說：我有我想要得到的長度字符串ëaúlt一個操縱基於字符的位置等。問題是第一個數字被計數兩次，或者我猜'ë位於第0位，'位於第1位。

處理任何Unicode問題的第一步是確切知道數據中的內容;不要猜測。在這種情況下，你的猜測是正確的。它並不總是如此。

「你的數據究竟是什麼」：使用repr（）內置函數（除了unicode之外還有更多的東西）。在你的問題中顯示repr（）輸出的一個有用的優點是，回答者確實擁有你所擁有的。請注意，您的文本僅以四個位置顯示，而不是一些瀏覽器/字體顯示爲五個 - 「e」及其變音符號和「a」在一個位置上被拼湊在一起。

您可以使用unicodedata.name（）函數來告訴您每個組件是什麼。

下面是一個例子：

# coding: utf8 
import unicodedata 
x = u"ë́aúlt" 
print(repr(x)) 
for c in x: 
    try: 
     name = unicodedata.name(c) 
    except: 
     name = "<no name>" 
    print "U+%04X" % ord(c), repr(c), name

結果：

u'\xeb\u0301a\xfalt' 
U+00EB u'\xeb' LATIN SMALL LETTER E WITH DIAERESIS 
U+0301 u'\u0301' COMBINING ACUTE ACCENT 
U+0061 u'a' LATIN SMALL LETTER A 
U+00FA u'\xfa' LATIN SMALL LETTER U WITH ACUTE 
U+006C u'l' LATIN SMALL LETTER L 
U+0074 u't' LATIN SMALL LETTER T

現在讀@ bobince的答案:-)

來源

2010-02-12 09:21:30

Python在使用特殊字符時返回錯誤的字符串長度

回答

相關問題