2017-09-26 295 views
0

我有一個預測變量的隨機森林模型。這個變量不是一個分類類,而是一個從0到1的數字。在這種情況下,評估生成模型的準確性的最好方法是什麼?評估連續數據隨機森林模型精度的最佳方法?

我應該分割訓練和測試零件,然後簡單地計算測試類中預測值和觀察值之間的線性相關性嗎?

有沒有更優雅的解決方案?如果是的話哪個包實現了這個?

+2

這是一個統計的問題,而不是一個編程一個,所以它應該是stats.stackexchange沒有堆棧溢出。這就是說,即使在那裏,這也是一個很糟糕的問題。可能無論您使用的隨機森林套餐是否提供了很好的選項(如均方誤差和R^2)。您應該考慮默認選項和其他內置選項,然後再考慮使用自己的選項。 – Gregor

回答

0

你當然可以將一些數據分解爲測試(與火車),但是對於隨機森林,這通常是不必要的,因爲存在「內置」袋外(OOB)錯誤。這裏是一個與顯示的「mtcars」數據集OOB錯誤與樹木#結尾的例子:

install.packages("randomForest") 
library(randomForest) 

head(mtcars) 
set.seed(1) 
fit <- randomForest(mpg ~ ., data = mtcars, importance = TRUE, proximity = TRUE) 
print(fit) 

# Look at variable importance: 
importance(fit) 

# OOB error vs. # of trees 
plot(fit)