2013-05-09 4700 views
2

我對一個相當小的數據集(即28個obs。的11個變量)執行了100,000個分類樹的隨機森林分析。隨機森林:%IncMSE和%NodePurity之間不匹配

我再發的變量重要性情節

在出現的情節存在的重要變量中的至少一個%IncMSE和IncNodePurity之間的顯失配。事實上,前者的重要性似乎是第七位(即%IncMSE < 0),後者是第三位。

任何人都可以啓發我如何解釋這種不匹配?

所討論的變量與另一個變量顯着相關,這兩個變量在這兩個圖表中一直出現在第二位。這可能是一個線索?

回答

0

第一張圖顯示,如果一個變量通過隨機排列賦值,MSE增加多少。價值越高,變量的重要性越高。

另一方面,節點純度是由基尼指數衡量的,基尼指數是該變量分裂前後RSS的差異。

由於變量重要性標準的概念在兩種情況下不同,因此您對不同變量的排名不同。

沒有固定的標準來選擇變量重要性的「最佳」度量值,它取決於您手邊的問題。