Q

用於處理機器學習的大型數據集的設計模式

2017-08-16 54 views 2 likes

2

我目前正在嘗試從網站中抓取數據並從中建立一個大型數據集（並且可能隨時間而增長）。我想知道在處理，保存和加載大型數據集時是否有任何好的做法。用於處理機器學習的大型數據集的設計模式

更具體地說，當我想要保存的數據集太大而不能存儲在RAM中時，應該怎麼做，然後一次寫入磁盤;並且一次寫入一個數據點效率太低？有沒有比編寫一次適度大小的批處理更聰明的方法？

謝謝你的時間！

2017-08-16 CowNorris

+2

不要重新發明輪子，只需使用任何標準數據庫 - MySQL的，Postgress，甲骨文，W/E。讓數據庫引擎擔心[輸入]效率。 – DyZ

A

回答

2

當然，使用數據庫。

您應該看看MongoDB或elasticSearch，因爲您存儲的內容似乎是文檔而不是關係數據。

https://www.mongodb.com/

https://www.elastic.co/

2017-08-16 23:26:58

相關問題