2017-10-28 97 views
0

我有一些問題需要了解一些基礎知識,所以我被卡住了迴歸樹。 我使用rpart的分類樹來檢查環境參數對我測量的樹木生長因子的影響。 長話短說:rpart:是否需要訓練數據

將數據分解爲訓練和測試數據以及(何時)需要它的目的是什麼?我的搜索顯示了他們不做或不做的例子,但我找不到背景故事。這只是爲了驗證修剪嗎?

謝謝!

回答

1

在訓練模型之前,您需要分解爲訓練和測試數據。培訓數據有助於型號學習,而測試數據有助於驗證該模型。

拆分在運行模型之前完成,並且模型在進行一些微調或更改時必須重新訓練。

正如你可能知道,對於postpruning一般過程如下:

1) Split data into training & test (validation) sets 

2) Build decision tree from training set 

3) For every non-leaf node N, prune the subtree rooted by N and 
replace with the majority class. Then test accuracy with a 
validation set. This validation set could be the one defined before 
or not. 

這一切都意味着,你可能是在正確的軌道上,是的,整個數據集可能已被用於測試修剪的準確性。

+0

非常感謝你!我現在掌握了它,但是我的模型通過修剪釋放了所有節點,因此只剩下1個節點。經過測試,修剪組的平均值和SD實際上更好,看起來很奇怪:D – Qiyuan

相關問題