2016-06-07 107 views
0

我正在尋找一個隨機的森林包在python或R,這將讓我得到一些建成的最終森林細粒度的細節。特別是,我想:隨機森林中的樹細節

  1. 獲取樹的創建;
  2. 對於森林中的每棵樹,全面衡量其適合數據的程度(如熵);
  3. 對於訓練集中的每條記錄和森林中的每棵樹,記錄它結束於哪個終端葉;和
  4. 對於一個新的記錄,並在森林每個樹,該終端葉的其在最終的記錄。

我知道的溶液(4)也將作爲一種解決方案(3),但我猜測(3)應該相對容易做到,隨着森林的成長,對結果進行標記。

我在R和python的可用選項上看起來相當費勁,而且我找不到滿足這四個要求的現成例程。 (很難找到滿足實際讓你直接看到森林的條件(1)。)

如果有人知道我錯過的東西,或者自己構建了這樣的程序,我會非常就像鏈接/引用它一樣。

回答

0

試試這個:

包解釋scikit學習的決策樹和隨機 林預測。允許將每個預測分解爲偏差和 http://blog.datadive.net/interpreting-random-forests/中描述的功能貢獻組件。對於具有n個要素的數據集 ,數據集上的每個預測均被分解爲 prediction = bias + feature_1_contribution + ... + feature_n_contribution。

pip install treeinterpreter 

http://blog.datadive.net/random-forest-interpretation-with-scikit-learn/

+0

嗯 - 從來沒有見過這個之前。感謝提示;我會看看。 –

+0

NP。再見!! – Merlin

0

另一種解決方案是lime,它會解釋的特徵的權重用於預測,並且具有使用matplotlib與jupyter(IPython中)筆記本集成容易顯像闡釋。