2014-10-05 83 views
1

我是韓國用戶。從CSV讀取DataFrame時損壞的韓文字符串

當我讀從大熊貓數據幀的.csv文件,朝鮮字符串被打破這樣的:�����

的英語很好。

輸入數據樣本:

Unnamed: 0 �������� �������ε����� ��X��ǥ ��Y��ǥ �����ڵ� ������ ����߻��������� ����Ǽ� �������� 

0 165244 20131201 �ٻ�62175541 962170 1955410 331 �������� 1 2 18224.03 

爲什麼韓國文字會損壞?

+0

什麼是你的.csv文件的編碼?它是用utf8還是其他編碼保存的? – SSC 2014-10-05 07:01:47

回答

0

您的文本格式是unicode的,所以你需要把它作爲utf-8解碼:

import csv 
def unicode_reader('your_file_name',delimiter='your_delimiter', **kwargs): 
    spamreader = csv.reader('your_file_name',delimiter='your_delimiter', **kwargs) 
    for row in spamreader: 
     yield [unicode(w, 'utf-8') for w in row] 

reader = unicode_csv_reader(open('your_file_name')) 
for tex in reader: 
    print tex 
+0

我是ipython用戶。我使用該代碼。但我看到這個錯誤---- UnicodeDecodeError:'utf8'編解碼器無法解碼位置0的字節0xc7:無效延續字節 – 2014-10-06 17:30:26

+0

所以用'ISO-8859-1'改變'utf-8'並給出結果! – Kasramvd 2014-10-06 17:40:58