2
我目前正在嘗試從網站中抓取數據並從中建立一個大型數據集(並且可能隨時間而增長)。我想知道在處理,保存和加載大型數據集時是否有任何好的做法。用於處理機器學習的大型數據集的設計模式
更具體地說,當我想要保存的數據集太大而不能存儲在RAM中時,應該怎麼做,然後一次寫入磁盤;並且一次寫入一個數據點效率太低?有沒有比編寫一次適度大小的批處理更聰明的方法?
謝謝你的時間!
我目前正在嘗試從網站中抓取數據並從中建立一個大型數據集(並且可能隨時間而增長)。我想知道在處理,保存和加載大型數據集時是否有任何好的做法。用於處理機器學習的大型數據集的設計模式
更具體地說,當我想要保存的數據集太大而不能存儲在RAM中時,應該怎麼做,然後一次寫入磁盤;並且一次寫入一個數據點效率太低?有沒有比編寫一次適度大小的批處理更聰明的方法?
謝謝你的時間!
當然,使用數據庫。
您應該看看MongoDB或elasticSearch,因爲您存儲的內容似乎是文檔而不是關係數據。
不要重新發明輪子,只需使用任何標準數據庫 - MySQL的,Postgress,甲骨文,W/E。讓數據庫引擎擔心[輸入]效率。 – DyZ