從CSV讀取DataFrame時損壞的韓文字符串

當我讀從大熊貓數據幀的.csv文件，朝鮮字符串被打破這樣的：��

的英語很好。

輸入數據樣本：

Unnamed: 0 �������� �������ε����� ��X��ǥ ��Y��ǥ �����ڵ� ������ ����߻��������� ����Ǽ� �������� 

0 165244 20131201 �ٻ�62175541 962170 1955410 331 �������� 1 2 18224.03

爲什麼韓國文字會損壞？

來源

2014-10-05 강동인

什麼是你的.csv文件的編碼？它是用utf8還是其他編碼保存的？ – SSC 2014-10-05 07:01:47

您的文本格式是unicode的，所以你需要把它作爲utf-8解碼：

import csv 
def unicode_reader('your_file_name',delimiter='your_delimiter', **kwargs): 
    spamreader = csv.reader('your_file_name',delimiter='your_delimiter', **kwargs) 
    for row in spamreader: 
     yield [unicode(w, 'utf-8') for w in row] 

reader = unicode_csv_reader(open('your_file_name')) 
for tex in reader: 
    print tex

來源

2014-10-05 07:09:37 Kasramvd

我是ipython用戶。我使用該代碼。但我看到這個錯誤---- UnicodeDecodeError：'utf8'編解碼器無法解碼位置0的字節0xc7：無效延續字節 – 2014-10-06 17:30:26

所以用'ISO-8859-1'改變'utf-8'並給出結果！ – Kasramvd 2014-10-06 17:40:58

從CSV讀取DataFrame時損壞的韓文字符串

回答

相關問題