2017-08-16 54 views
2

我目前正在嘗試從網站中抓取數據並從中建立一個大型數據集(並且可能隨時間而增長)。我想知道在處理,保存和加載大型數據集時是否有任何好的做法。用於處理機器學習的大型數據集的設計模式

更具體地說,當我想要保存的數據集太大而不能存儲在RAM中時,應該怎麼做,然後一次寫入磁盤;並且一次寫入一個數據點效率太低?有沒有比編寫一次適度大小的批處理更聰明的方法?

謝謝你的時間!

+2

不要重新發明輪子,只需使用任何標準數據庫 - MySQL的,Postgress,甲骨文,W/E。讓數據庫引擎擔心[輸入]效率。 – DyZ

回答