1
我想創建一個大pd.dataframe,出來的7檔4GB的.txt文件,我想使用+保存爲.csv創建一個大的pd.dataframe - 如何?
我做了什麼:
創建一個for循環並在axis = 0上一個接一個地打開 - 接續,然後繼續我的索引(一個時間戳)。
但是我遇到了內存問題,即使我正在使用100GB Ram服務器。我在某處讀到大熊貓佔據了數據大小的5-10倍。
我的替代方案是什麼?
一個是創建一個空的csv - 打開它+ txt +追加一個新的塊並保存。
其他想法?
檢查DASK分塊dataframes。另外,您可能需要重新考慮csv並使用壓縮的二進制格式來存儲數據,您可以在讀取數據時節省一些空間並節省時間。 https://tech.blue-yonder.com/efficient-dataframe-storage-with-apache-parquet/ –