我正在使用cnn來分類圖像。我有1000張圖片開始我的旅程。所以我用900作爲訓練數據集,100作爲測試數據集。我得到了一個約70%正確性的模型。我可以重複使用測試數據作爲訓練數據嗎?
那我今天再拍150張照片。所以我有兩個想法可以繼續:
(1)我可以將以前的100個測試數據+ 900個訓練數據組合成一個「新」訓練集,這樣我就可以有1000個訓練數據來獲得更好的模型?那麼我可以使用新的150張圖像作爲新的「測試」數據? (2)我可以將新的150張圖像加上900個訓練數據組合成一個「新」訓練集來訓練一個更好的模型,並繼續使用前面的100個測試數據集來測試新模型嗎?
顯然我會嘗試兩種,但我不知道理論上哪一個更好......有什麼意見?謝謝。
我不確定是否可以一次又一次地使用相同的測試數據集。因此,如果我繼續使用相同的100個測試數據並不斷向訓練集中添加新數據,那麼可能會好嗎?是的,他們來自同一分配。 – user2210021
只要你的模型沒有考慮擬合模型參數的測試數據就沒有問題。使用模型進行預測不會影響模型的學習參數,因此您可以一次又一次使用相同的測試數據。在ML中,體面的列車測試分組通常爲75-25或80-20。如果您認爲分割數據太少,請嘗試進行k次交叉驗證。 – mujjiga