2017-08-24 73 views
0

我最近一直在使用RPART並遇到了一個我不明白的計算。Rpart改進得分與信息增益

在處理信息增益時,如何計算「改善」或變量重要性(它們似乎與我的測試相同)。

作爲一個虛擬的例子,我試着學習下表:

happy,class 
    yes,p 
    no,n 

用命令:

fit <-rpart(class ~ happy,data=train,parms = list(split="information"),minsplit=0)

很簡單,並與根,然後將每個返回預期樹包含一個元素的葉子。

如果這變得令人困惑,那麼對於拆分給出的改進是1.386294。

我期望這裏的改進是1(從熵1到熵0),我錯過了什麼?

+0

嗨格雷格,歡迎來到stackoverflow!請提供一個[可重現的例子](https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example),以便人們可以幫助你 –

+0

嗨朱利安,我清理了對統計數據如何計算的原始後期總體見解也很受歡迎! – Greg

+0

rpart是CART的一個實現。它使用GINI來決定節點分裂,而不是熵。 – G5W

回答

0

那麼,要回答這個問題,這是因爲RPART正在使用自然日誌。

因此,似乎改進分數是由節點中的元素數量縮放的熵的改進。

根節點的熵是:-ln(1/2)* 1/2 * 2 + -ln(1/2)* 1/2 * 2 = -ln(1/2)* 2 1.38 。在葉節點的熵都是0.

爲什麼他們使用自然日誌,我不知道。