2013-11-20 55 views
2

我必須使用R軟件和rpart軟件包創建決策樹。 在我的論文中,我應該首先定義ID3算法,然後實現各種決策樹。有人可以解釋我ID3和CART算法之間的區別嗎?

我發現rpart軟件包不支持ID3算法。它使用CART算法。我想了解其中的差異,也許可以解釋我的論文中的差異,但是我沒有找到任何比較雙方的文獻。

你能幫我嗎?你是否知道兩篇文章都有比較的論文,或者你能否向我解釋這種差異?

+0

他們使用不同的損失函數,請參閱維基百科:http://en.wikipedia.org/wiki/Classification_and_regression_tree#Formulae –

+1

唯一的區別是ID3使用信息增益與Entropie和CART吉尼雜質? – user2988757

回答

1

閱讀我沒有訪問原文1,2但使用一些次要來源,這些遞歸(「貪婪」)分區之間的關鍵差異(「樹」)算法似乎是:

  1. 學習類型:

    • ID3,作爲一個 「迭代Dichotomiser」,是二元分類只有
    • CART,或「分類迴歸樹」是算法家族(包括但不限於二進制分類樹學習)。使用rpart(),您可以指定method='class'method='anova',但rpart可以根據因變量的類型(即因子或數字)來推斷此情況。
  2. 用於拆分選擇的損失函數。

    • ID3,因爲其他意見已提到的那樣,根據信息增益,這是父節點和(加權和)子節點之間在entropy減少選擇其分裂。
    • 購物車,用於分類時,選擇其拆分爲實現這一據傳減少Gini impurity

的子集,作爲一個醫生,我幾乎沒有聽說過使用的術語ID3,而車是經常被用來作爲決策樹的全部術語。 CART在R的rpart包中有非常流行的實現。 ?rpart指出「在大多數情況下,它緊跟Breiman等(1984)。」

但是,您可以通過rpart(..., parms=list(split='information'))覆蓋默認行爲並拆分信息增益。

Quinlan,J.R.1986。歸納決策樹。馬赫。學習。 1,1(1986年3月),81-106

Breiman,Leo; Friedman,J.H。 Olshen,R.A .; Stone,C.J。(1984)。 分類和迴歸樹。蒙特雷,加利福尼亞州:沃茲沃思&布魯克斯/科爾高級圖書&軟件。

相關問題