2015-08-28 112 views
-1

它在統計文檔中說:分類樹給出了名義上的響應,例如「真」或「假」。迴歸樹給出數字響應。我正在嘗試構建決策樹。我正在處理數字(輸出)和非數字數據(輸入)。我認爲分類樹比迴歸樹更合適,或者(因爲迴歸樹似乎只適用於數字數據)。是否可以使用非數字數據來預測數值數據?如果是這樣,我怎麼能在R中做到這一點?分類樹適合是正確的選擇嗎?迴歸樹或分類樹?多個分類輸入和數字輸出

謝謝:)

回答

1

術語「數字回答」有點泛泛。數字可以是一個從0到無窮大的變量(例如,用戶數量,金額,距離),但數字也可以是取值爲1或0(代表是/否,男性/女性)的變量,或者甚至值1,2,3(代表選擇1,選擇2,選擇3)。最好將第一種情況描述爲尺度/連續變量,第二種情況稱爲二進制變量,第三種情況稱爲分類變量。

第一種情況可以通過迴歸樹(基於連續變量的數字響應)來處理,其他兩種可以通過分類樹來處理(分類變量響應;它們可以返回每個分類值的分類值或概率。由你決定)。

檢查這些一開始:http://www.statmethods.net/advstats/cart.htmlhttp://www.rdatamining.com/docs/regression-and-classification-with-r

+0

感謝安東尼奧斯但我應該如何處理分類的獨立變量? (輸出),\t CTR(輸出), 因此,如你所說,獨立變量是分類的(具有許多級別)並且輸出變量(CTR)是連續的。 –

+0

分類自變量不是問題,因爲樹會以線性模型的類似方式處理它們。真正的問題在於,如果您至少有一個獨立的變量有很多級別(與您擁有的行數相比),那麼可能需要預先提供另一個進程,以便以減少級別數量的方式重新組合這些變量。 – AntoniosK

+0

只是爲了更清楚地說明如何使用獨立變量:情況(a)你有一個自變量「age」在[15,50]範圍內連續。 (b)你有一個獨立變量「age」作爲組{15-18,19-30,31-50}。這個模型可能會將你的變量分成不同的範圍,如[15,20],(20,50)。該模型可能會將您的變量分成不同的組,如15-18和19-30,31-50一起。 – AntoniosK