1
我想讀取20gb的數據集。我已經搜索了一個解決方案,我試過了:閱讀大型數據集大熊貓
data = pd.read_csv('dataset.csv', chunksize=1000,usecols=fields)
df = pd.concat(data, ignore_index=True)
但傳遞到串聯時仍然出現內存錯誤。 (我改變塊大小很多時間,仍然是相同的)
我有16GB的RAM工作在3000mhz。
有什麼建議嗎?
我正在嘗試將數據導入數據框以進行數據分析並將其導出回來。 (數據需要清理乾淨和噪音的數據)。
您是否真的需要將整個數據集放在內存中,還是可以按塊處理它? – MaxU
[這個答案](https://stackoverflow.com/a/46425826/4889267)可能是相關的 - 讀取(這是爲了打開大型excel文件,並建議使用CSV) – AK47
相關:https:// stackoverflow。 com/questions/14262433/large-data-work-flows-using-pandas?rq = 1當你只有16GB內存時,你是否也相信可以加載20GB文件? – EdChum