我使用xlrd將一個excel文件加載到python3中。它們基本上是電子表格中的文本行。在這些行中有一些是引號。例如,一條線可以是:在python字符串中刪除奇怪的雙引號(來自excel文件)
她說:「我的名字是詹妮弗。」
當我將它們讀入python並將它們變成字符串時,雙引號會被讀入爲一個奇怪的雙引號字符,它看起來像斜體的雙引號。我假設在某個地方,由於某些編碼問題或某些事情,python會將字符讀作某些外來字符,而不是實際的雙引號。所以在上面的例子中,如果我將該行分配爲「文本」,那麼我們會得到類似以下的內容(儘管不完全是因爲我實際上沒有輸出該行,所以想象「文本」已經預先分配) :
text = 'She said, 「My name is Jennifer.」'
text[10] == '"'
第二行會吐出一個False,因爲它似乎並不認爲它是一個普通的雙引號字符。如果這有所幫助,我正在Mac終端內工作。
我的問題是: 1.有沒有辦法輕鬆去除這些奇怪的雙引號? 2.當我在文件中讀取python以正確識別它們爲雙引號時,有沒有辦法?
它們是Unicode:'''是U + 201C,'''是U + 201D。你需要用''''U + 0022替換它們。 – 2014-10-28 07:52:51