Rpart改進得分與信息增益

我最近一直在使用RPART並遇到了一個我不明白的計算。Rpart改進得分與信息增益

在處理信息增益時，如何計算「改善」或變量重要性（它們似乎與我的測試相同）。

作爲一個虛擬的例子，我試着學習下表：

happy,class 
    yes,p 
    no,n

用命令：

fit <-rpart(class ~ happy,data=train,parms = list(split="information"),minsplit=0)

很簡單，並與根，然後將每個返回預期樹包含一個元素的葉子。

如果這變得令人困惑，那麼對於拆分給出的改進是1.386294。

我期望這裏的改進是1（從熵1到熵0），我錯過了什麼？

2017-08-24 Greg

嗨格雷格，歡迎來到stackoverflow！請提供一個[可重現的例子]（https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example），以便人們可以幫助你 –

嗨朱利安，我清理了對統計數據如何計算的原始後期總體見解也很受歡迎！ – Greg

rpart是CART的一個實現。它使用GINI來決定節點分裂，而不是熵。 – G5W

那麼，要回答這個問題，這是因爲RPART正在使用自然日誌。

因此，似乎改進分數是由節點中的元素數量縮放的熵的改進。

根節點的熵是：-ln（1/2）* 1/2 * 2 + -ln（1/2）* 1/2 * 2 = -ln（1/2）* 2 1.38 。在葉節點的熵都是0.

爲什麼他們使用自然日誌，我不知道。

2017-09-19 18:21:42 Greg

回答