我正在尋找Hadoop Mapreduce上決策樹算法的實現。 是否有任何實施準備好?我看到Mahout只有決策森林,可以使用決策樹和決策森林嗎?相似性/差異是什麼?Hadoop Mapreduce上有決策樹算法的實現嗎?
0
A
回答
0
決策樹可能是分佈式最常見的方式是森林。因爲通過計算獨立樹來進行分發並不重要,而不重要的是以分佈的方式高效地構建單個樹?
0
隨機森林當然可以很好地並行化,因爲每棵樹都是建立在(有希望的)隨機獨立子集的訓練數據上的。
但是,Hadoop已經決定了每個節點上的哪些數據(以及它的數量)。根據源數據,在分發到節點之前先進行隨機化可能不切實際。此外,每個節點上的觀測數量不再是RF算法的一個參數,它由Hadoop配置控制數據如何分佈以及節點上的數據冗餘度。如果沒有特別的注意,樣本偏差會很容易蔓延到每棵樹(專家)模型中。因爲CART中的二進制遞歸分區所需的核心計算(例如計算方法(除以計數的總和),誤差函數(方差,偏移量等))需要跨多個hadoop節點並行化單個樹(CART)基尼等)應該可以寫在地圖上減少。這並不是微不足道的,因爲節點需要非常健談,才能發揮作用 - 發送索引來分割原始數據樣本的子節點,然後遞歸子節點。我認爲這可能適用於真正龐大的數據集,但對於那些已經可以「適合」到單個工作站內存中的數據集來說,速度會更慢。
革命分析最近發佈了他們的版本或R已經在Hadoop集羣上實施了decsion樹。我沒有嘗試過,但看看它如何在各種大型數據集上執行會很有趣。
這裏是鏈接:Revolution Analytics Brings Big Data Decision Trees and New Hadoop Support to Predictive Analytics
相關問題
- 1. 用決策樹邏輯實現程序
- 2. 增量式決策樹C++實現
- 3. PHP決策樹實現(ID3或C4.5)
- 4. 需要幫助實現這個算法與地圖Hadoop MapReduce
- 5. 如何計算決策樹
- 6. 用foo算法實現hadoop
- 7. 無法使用Accord.Net框架實現基本決策樹
- 8. 樹算法實現C#
- 9. 的Hadoop MapReduce的實踐
- 10. 樹上的算法。有幫助指出有效解決方法的提示嗎?
- 11. hadoop mapreduce距離計算
- 12. 如何實現基於決策樹的C#代碼/邏輯?
- 13. 決策樹算法名稱「c4.5」的含義是什麼?
- 14. 如何分割CART決策樹算法中的連續屬性?
- 15. 決策樹學習算法中的重複訓練數據
- 16. 決策樹問題解決
- 17. GPU上是否有MapReduce實現(CUDA)?
- 18. 執行決策樹
- 19. 決策樹修剪
- 20. 修剪決策樹
- 21. 決策樹組件
- 22. weka決策樹java
- 23. 建模決策樹
- 24. 隨機決策算法
- 25. C++決策樹實現問題:在代碼中考慮
- 26. hadoop mapreduce
- 27. 具有強制結構的決策樹
- 28. 該算法是現有的實時系統算法嗎?
- 29. 決策樹在樹決策中保持使用Y變量
- 30. hadoop的Dumbo mapreduce