Q

隨機森林：％IncMSE和％NodePurity之間不匹配

2013-05-09 4700 views 2 likes

2

我對一個相當小的數據集（即28個obs。的11個變量）執行了100,000個分類樹的隨機森林分析。隨機森林：％IncMSE和％NodePurity之間不匹配

我再發的變量重要性情節

在出現的情節存在的重要變量中的至少一個％IncMSE和IncNodePurity之間的顯失配。事實上，前者的重要性似乎是第七位（即％IncMSE < 0），後者是第三位。

任何人都可以啓發我如何解釋這種不匹配？

所討論的變量與另一個變量顯着相關，這兩個變量在這兩個圖表中一直出現在第二位。這可能是一個線索？

2013-05-09 user2366698

A

回答

0

第一張圖顯示，如果一個變量通過隨機排列賦值，MSE增加多少。價值越高，變量的重要性越高。

另一方面，節點純度是由基尼指數衡量的，基尼指數是該變量分裂前後RSS的差異。

由於變量重要性標準的概念在兩種情況下不同，因此您對不同變量的排名不同。

沒有固定的標準來選擇變量重要性的「最佳」度量值，它取決於您手邊的問題。

2015-06-17 06:03:58

相關問題