我試圖弄清楚是否有可能在新的和未知數據可用於訓練時「重新訓練」模型。我的想法是這樣的: 使用某些數據集進行初始培訓並生成模型。然後可保存該模型以供將來使用(使用write().save()
命令)。每次運行程序時,我都會調用該模型,而不是通過對相同或相似數據進行訓練來創建新模型(我知道我也可以使用load()
命令加載模型)。但是,我將與之合作的數據在某些時候會發生顯着變化,以至於我的模型所做的預測不會再正確。但是,這並不意味着它是錯的。這隻意味着它需要一些調整,而這正是「再培訓」想到的地方。我想採用我的舊模型,並用新數據重新訓練,然後再保存。 Apache Spark中可以這樣做嗎?或者,我是否需要僅基於新數據創建新模型?僅供參考,我正在談論分類模型,更具體地說是關於隨機森林或GBT。如何在Spark中「重新訓練」模型(如果可能)
感謝