有趣的是,我在計算器和其他網站上看到了很多不同的答案:我可以使用Train和測試數據進行插補嗎?
在處理我的訓練數據集時,我使用決策樹模型來推算某列的缺失值。所以這是我的問題。使用所有可用數據(訓練&測試)來製作插補模型(而不是預測)還是公平的?或者在做這些工作時只能觸摸訓練集?另外,一旦我開始在我的測試集上工作,我是否必須只使用測試集數據,使用我的訓練集中製作的相同插補模型進行插值,還是可以使用所有可用數據重新訓練我的插補模型?
只要我沒有觸及我的測試集進行預測模型訓練,我會認爲使用其他數據來處理像插值問題一樣好。但也許這將打破基本規則。思考?