試圖閱讀python中的一個非常大的文本列表

我目前正在嘗試通過刪除不重要的數據來減小大小的列表。我目前正在使用試圖閱讀python中的一個非常大的文本列表

with open("list.txt") as f_line: 
    for line in f_line: 
     Doing_things()

它目前正在使用較小規模的文件，但是當使用較大的主文件時，它會給出以下錯誤。

的UnicodeDecodeError：「ASCII」編解碼器不能在3656位置解碼字節0xe2：在範圍序數不（128）

有另一種方式來讀取列表爲蟒蛇。該文件還有超過10000個單個數據點用於列表。感謝您的幫助。

文件的大小提到here你可以指定它是沒有問題的。問題是，你打開文件就好像它包含ASCII文本，而不是。 – Matthias

我不認爲問題出在文件大小上。我使用這種方法的文件大小爲30 GB +沒有小故障。這些文件本身可能存在問題。 –

首先「大」是一個相對術語。 10000不是一個重要的數字。從你移植的東西看來，它與文件大小或內存無關，而是與編碼有關。您應該先將這些行轉換爲utf-8。 –

原因可能是對文件編碼的「誤解」。你的python解釋器需要一個ascii編碼的文本文件，但實際上它被編碼爲unicode或latin1。如果它包含重音字符，它肯定不是ASCII文件。

你使用哪個版本的python？ Python 2對待文本的方式不同於Python 3.

我通常使用notepad ++來檢查文本文件中使用的編碼是否不清楚。

一旦你知道哪些編碼被用作這樣with open('list.txt', encoding='utf-8') as f_line:

2016-11-28 17:04:01

感謝它的工作:)我使用的是Python 3，我認爲它在處理文件中的emojis時感到困惑。 –

回答