csv文件中的混合編碼

我有一個相當大的數據庫（10,000多條記錄，每個記錄大約有120個變量）。問題是，大約一半的原始.csv文件中的變量被正確編碼爲UTF-8而其餘的則以ANSI（Windows-1252）編碼，但被解碼爲UTF-8，導致非ASCII字符（主要是拉丁字符）的奇怪字符，如Ã©或Ã³。csv文件中的混合編碼

我不能簡單地改變文件編碼，因爲它的一半將被解碼爲錯誤的類型。此外，我無法知道哪些列編碼正確，哪些沒有正確編碼，而我所擁有的就是我試圖修復的原始.csv文件。

到目前爲止，我發現純文本文件可以使用UTF-8編碼，並且可以推斷出錯誤解釋的字符（錯誤的Unicode）。一個提供這種功能的庫是Python的ftfy。但是，我使用下面的代碼，到目前爲止，還沒有成功：

import ftfy 

file = open("file.csv", "r", encoding = "UTF8") 
content = file.read() 

content = ftfy.fix_text(content)

然而，content將準確顯示比以前相同的文本。我相信這與ftfy推斷內容編碼的方式有關。

不過，如果我跑ftfy.fix_text("PÃºblica que cotiza en MÃ©xico")它會顯示正確的反應：

>> 'Pública que cotiza en México'

我在想，也許解決問題的方法是通過在每一個的值（細胞）進行迭代。 csv文件，並嘗試修復如果與ftfy，並將文件導回到R，但它似乎有點複雜

有什麼建議嗎？

來源

2016-05-16 luisfego

如果該文件是混合編碼，並且您使用的是UTF-8，那麼您會在所有位置都收到UnicodeDecode錯誤。這聽起來更像是字符被錯誤地存儲在數據庫中。按照建議使用ftfy。也許在返回結果 –

實際上，有幾種隨機單元的混合編碼地方。從其原始源導出數據時可能存在問題。

ftfy的問題在於它一行一行地處理文件，並且如果遇到格式化的字符，它會假設整行以相同的方式編碼，並且意圖使用奇怪的字符。

由於這些錯誤是通過所有文件隨機出現的，因此我無法轉置整個表並處理每一行（列），所以答案是逐個處理。幸運的是，Python有一個標準庫，它提供了使用csv輕鬆工作的功能（特別是因爲它正確地轉義了單元格）。

這是我用來處理文件的代碼：

import csv 
import ftfy 
import sys 

def main(argv): 
    # input file 
    csvfile = open(argv[1], "r", encoding = "UTF8") 
    reader = csv.DictReader(csvfile) 

    # output stream 
    outfile = open(argv[2], "w", encoding = "Windows-1252") # Windows doesn't like utf8 
    writer = csv.DictWriter(outfile, fieldnames = reader.fieldnames, lineterminator = "\n") 

    # clean values 
    writer.writeheader() 
    for row in reader: 
     for col in row: 
      row[col] = ftfy.fix_text(row[col]) 
     writer.writerow(row) 

    # close files 
    csvfile.close() 
    outfile.close() 

if __name__ == "__main__": 
    main(sys.argv)

，然後美其名曰：

$ python fix_encoding.py data.csv out.csv

將輸出與正確的編碼csv文件。

來源

2016-05-18 21:01:06 luisfego

好的解決方案前寫一個圍繞CSV模塊的包裝來解析通過ftfy。儘管我發現使用csv.reader和csv.writer更簡單，因爲您不必處理標題，字典等。 – AlexanderMP

一個小建議：分而治之。嘗試使用一個工具（ftfy？）將所有文件對齊到相同的編碼（並保存爲純文本文件），然後嘗試解析爲csv

來源

2016-05-16 22:04:28 akiva

csv文件中的混合編碼

回答

相關問題