評估連續數據隨機森林模型精度的最佳方法？

我有一個預測變量的隨機森林模型。這個變量不是一個分類類，而是一個從0到1的數字。在這種情況下，評估生成模型的準確性的最好方法是什麼？評估連續數據隨機森林模型精度的最佳方法？

我應該分割訓練和測試零件，然後簡單地計算測試類中預測值和觀察值之間的線性相關性嗎？

有沒有更優雅的解決方案？如果是的話哪個包實現了這個？

2017-09-26 Pavel Shliaha

這是一個統計的問題，而不是一個編程一個，所以它應該是stats.stackexchange沒有堆棧溢出。這就是說，即使在那裏，這也是一個很糟糕的問題。可能無論您使用的隨機森林套餐是否提供了很好的選項（如均方誤差和R^2）。您應該考慮默認選項和其他內置選項，然後再考慮使用自己的選項。 – Gregor

你當然可以將一些數據分解爲測試（與火車），但是對於隨機森林，這通常是不必要的，因爲存在「內置」袋外（OOB）錯誤。這裏是一個與顯示的「mtcars」數據集OOB錯誤與樹木＃結尾的例子：

install.packages("randomForest") 
library(randomForest) 

head(mtcars) 
set.seed(1) 
fit <- randomForest(mpg ~ ., data = mtcars, importance = TRUE, proximity = TRUE) 
print(fit) 

# Look at variable importance: 
importance(fit) 

# OOB error vs. # of trees 
plot(fit)

來源

2017-09-30 20:09:34 dmb

評估連續數據隨機森林模型精度的最佳方法？

回答

相關問題