2017-08-07 597 views
0

有人可以向我解釋什麼是功能在Apache Spark中的梯度增強樹和隨機森林中的作用? Apache Spark官方網站上沒有使用該功能的文檔或示例,我很好奇我是否可以將其用於我的特定用途。這個函數是否在樹的內部決策上設置了閾值?例如,對於數字列,使用setThresholds(5.0)相當於if(column < 5.0)?或者我錯了?在決策樹上設置閾值?

回答

2

您似乎沒有檢查documentation的正確部分。

thresholds值被定義爲以下:

參數有關的閾值在多類分類來調整預測每個類的概率。數組的長度必須等於類的數量,其值> 0。預測具有最大值p/t的類,其中p是該類的原始概率,t是類的閾值。

而且您已經注意到其實閾值的複數而不只是一個閾值。

您可以使用setThresholds(foo)來設置閾值,其中foo是閾值的值。

+0

它沒有顯示在這裏:http://spark.apache.org/docs/latest/api/java/org/apache/spark/ml/classification/GBTClassifier.html#getThresholds-- –

+0

它似乎是如果所有的支持只提供給Scala或Python而不是Java。大部分方法在Java API文檔 –

+0

中根本沒有解釋。我之前沒有注意到。我只是從不使用Java API tbh – eliasah