迴歸樹或分類樹？多個分類輸入和數字輸出

-1

它在統計文檔中說：分類樹給出了名義上的響應，例如「真」或「假」。迴歸樹給出數字響應。我正在嘗試構建決策樹。我正在處理數字（輸出）和非數字數據（輸入）。我認爲分類樹比迴歸樹更合適，或者（因爲迴歸樹似乎只適用於數字數據）。是否可以使用非數字數據來預測數值數據？如果是這樣，我怎麼能在R中做到這一點？分類樹適合是正確的選擇嗎？迴歸樹或分類樹？多個分類輸入和數字輸出

謝謝:)

來源

2015-08-28 Arpit Sisodia

術語「數字回答」有點泛泛。數字可以是一個從0到無窮大的變量（例如，用戶數量，金額，距離），但數字也可以是取值爲1或0（代表是/否，男性/女性）的變量，或者甚至值1,2,3（代表選擇1，選擇2，選擇3）。最好將第一種情況描述爲尺度/連續變量，第二種情況稱爲二進制變量，第三種情況稱爲分類變量。

第一種情況可以通過迴歸樹（基於連續變量的數字響應）來處理，其他兩種可以通過分類樹來處理（分類變量響應;它們可以返回每個分類值的分類值或概率。由你決定）。

檢查這些一開始：http://www.statmethods.net/advstats/cart.html和http://www.rdatamining.com/docs/regression-and-classification-with-r

來源

2015-08-28 11:09:48 AntoniosK

感謝安東尼奧斯但我應該如何處理分類的獨立變量？（輸出），\t CTR（輸出），因此，如你所說，獨立變量是分類的（具有許多級別）並且輸出變量（CTR）是連續的。 –

分類自變量不是問題，因爲樹會以線性模型的類似方式處理它們。真正的問題在於，如果您至少有一個獨立的變量有很多級別（與您擁有的行數相比），那麼可能需要預先提供另一個進程，以便以減少級別數量的方式重新組合這些變量。 – AntoniosK

只是爲了更清楚地說明如何使用獨立變量：情況（a）你有一個自變量「age」在[15,50]範圍內連續。（b）你有一個獨立變量「age」作爲組{15-18,19-30,31-50}。這個模型可能會將你的變量分成不同的範圍，如[15,20]，（20,50）。該模型可能會將您的變量分成不同的組，如15-18和19-30，31-50一起。 – AntoniosK

迴歸樹或分類樹？多個分類輸入和數字輸出

回答

相關問題