如何在Spark中「重新訓練」模型（如果可能）

我試圖弄清楚是否有可能在新的和未知數據可用於訓練時「重新訓練」模型。我的想法是這樣的：使用某些數據集進行初始培訓並生成模型。然後可保存該模型以供將來使用（使用write().save()命令）。每次運行程序時，我都會調用該模型，而不是通過對相同或相似數據進行訓練來創建新模型（我知道我也可以使用load()命令加載模型）。但是，我將與之合作的數據在某些時候會發生顯着變化，以至於我的模型所做的預測不會再正確。但是，這並不意味着它是錯的。這隻意味着它需要一些調整，而這正是「再培訓」想到的地方。我想採用我的舊模型，並用新數據重新訓練，然後再保存。 Apache Spark中可以這樣做嗎？或者，我是否需要僅基於新數據創建新模型？僅供參考，我正在談論分類模型，更具體地說是關於隨機森林或GBT。如何在Spark中「重新訓練」模型（如果可能）

感謝

來源

2017-08-01 Guillermo Herrera