2017-08-01 124 views
0

我試圖弄清楚是否有可能在新的和未知數據可用於訓練時「重新訓練」模型。我的想法是這樣的: 使用某些數據集進行初始培訓並生成模型。然後可保存該模型以供將來使用(使用write().save()命令)。每次運行程序時,我都會調用該模型,而不是通過對相同或相似數據進行訓練來創建新模型(我知道我也可以使用load()命令加載模型)。但是,我將與之合作的數據在某些時候會發生顯着變化,以至於我的模型所做的預測不會再正確。但是,這並不意味着它是錯的。這隻意味着它需要一些調整,而這正是「再培訓」想到的地方。我想採用我的舊模型,並用新數據重新訓練,然後再保存。 Apache Spark中可以這樣做嗎?或者,我是否需要僅基於新數據創建新模型?僅供參考,我正在談論分類模型,更具體地說是關於隨機森林或GBT。如何在Spark中「重新訓練」模型(如果可能)

感謝

回答

0

您可以將新老數據和訓練使用所有可用數據的新模式。

沒有

有增量訓練樹模型的選項。您不能只從舊模型開始並添加新數據。

也許

您可以創建某種類型的集成模型的。僅在新數據上訓練新模型,然後使用舊模型和新模型進行預測,並對兩者進行加權概率。它不是內置的,所以你會自己實現它。