2015-05-09 181 views
0

我正在研究一組數據集,該數據集有一堆原始文本,我將其用於向量化並在我的矩陣中用於隨機森林迴歸。我的問題是,我應該把每個單詞當作一個.factor還是一個.numeric,如果它是一個稀疏矩陣?哪一個加快了計算時間?R文本挖掘和隨機森林

回答

0

我的理解是R矩陣將因素強制爲字符,所以你最好使用數字。

我對RandomForest並不熟悉 - 我對它的功能有一個總體的瞭解,但我不確定它的R實現的內涵。如果你需要給它一個設計矩陣(例如,當你手工實現它們時ANOVA或GLM是如何工作的),你可以嘗試使用model.matrix函數。