2016-09-05 129 views
0

我正在對語言數據進行迴歸,我想要預測句子的數值情感值。我的數據是120x531。我正在使用所謂的詞袋方式,因此我的數據相對較少。R的Caret包混淆了線性模型(lm)和隨機森林

我想從一個簡單的線性迴歸模型,所以我的代碼基本上是這樣的:

ctrl = trainControl(method="cv", number=10) 
model.valence.lm = train(data[,5:531], data[,2], model = "lm", trControl = ctrl) 
model.valence.lm 

然而,插入符號似乎混淆線性模型和隨機森林,所以我得到下面的輸出(具體見第一行):

Random Forest 

120 samples 
527 predictors 

No pre-processing 
Resampling: Cross-Validated (10 fold) 
Summary of sample sizes: 108, 108, 108, 108, 108, 108, ... 
Resampling results across tuning parameters: 

    mtry RMSE  Rsquared RMSE SD Rsquared SD 
    2 2.594079 0.2786009 0.1236510 0.1612251 
    32 2.459950 0.1920956 0.1886138 0.1484976 
    526 2.639718 0.1028518 0.2459268 0.1067835 

RMSE was used to select the optimal model using the smallest value. 
The final value used for the model was mtry = 32. 

是什麼使這更混亂對我來說是一個事實,那我基本上覆制並從以前的項目中粘貼此代碼(如果這個工作)。有沒有人有任何想法,爲什麼發生這種情況?我檢查了我的數據對象,顯然我使用的功能是整數(不是數字/浮點數)。可能這是一個可能的解釋?

回答

1

Random Forest或「rf」是method參數的默認參數。你已經設置了model參數,該參數在任何情況下都可以接受,但不予理睬。使用method="lm"