2017-10-09 56 views
1

我想創建一個大pd.dataframe,出來的7檔4GB的.txt文件,我想使用+保存爲.csv創建一個大的pd.dataframe - 如何?

我做了什麼:

創建一個for循環並在axis = 0上一個接一個地打開 - 接續,然後繼續我的索引(一個時間戳)。

但是我遇到了內存問題,即使我正在使用100GB Ram服務器。我在某處讀到大熊貓佔據了數據大小的5-10倍。

我的替代方案是什麼?

一個是創建一個空的csv - 打開它+ txt +追加一個新的塊並保存。

其他想法?

+0

檢查DASK分塊dataframes。另外,您可能需要重新考慮csv並使用壓縮的二進制格式來存儲數據,您可以在讀取數據時節省一些空間並節省時間。 https://tech.blue-yonder.com/efficient-dataframe-storage-with-apache-parquet/ –

回答

0

使用h5py庫創建hdf5文件將允許您創建一個大型數據集並訪問它,而無需將所有數據加載到內存中。

這個答案提供瞭如何創建和逐漸提高HDF5數據集的例子:incremental writes to hdf5 with h5py