2017-06-14 97 views

回答

2

最佳選擇是以塊爲單位讀取數據,而不是將整個文件加載到內存中

幸運的是,read_csv方法接受chunksize的說法。

for chunk in pd.read_csv(file.csv, chunksize=somesize): 
    process(chunk) 

注意:通過指定chunksizeread_csvread_table,則返回值將是TextFileReader類型的iterable對象:

另見:

0

如果您的大數據幀可能不適合內存,則dask非常有用。我已經鏈接到的主頁有關於如何創建與pandas相同但可以分發API的dask數據框的示例。

0

根據您的機器,您可以通過在讀取csv文件時指定數據類型來讀取它在內存中的全部內容。當熊貓讀取csv時,使用的默認數據類型可能不是最好的。使用dtype您可以指定數據類型。它減少了讀入內存的數據幀的大小。