什麼是Weka的InfoGainAttributeEval公式用於評估連續值的熵？

我使用Weka的信息增益的屬性選擇功能，我試圖找出Weka在處理連續數據時使用的具體公式。什麼是Weka的InfoGainAttributeEval公式用於評估連續值的熵？

我理解熵的常用公式爲this，因爲數據中的值是離散的。我明白，在處理連續數據時，可以使用微分熵或離散值。我試着看着Weka對InfoGainAttributeEval的解釋，並且已經瀏覽了很多其他的參考資料，但找不到任何東西。

也許它只是我，但誰會知道Weka如何實現這種情況？

謝謝！

2016-02-27 eddybear

我請作者馬克·霍爾，他說：

它採用法亞德和伊拉尼的監督基於MDL-離散化方法。查看javadoc：
http://weka.sourceforge.net/doc.stable-3-8/weka/attributeSelection/InfoGainAttributeEval.html

還可以看到這個鏈接的離散化方法：

2016-08-29 20:44:00 Jorge

這可能有點晚，但非常感謝你的信息和精力！沒有看到Discretize功能。 – eddybear

回答