R文本挖掘和隨機森林

我正在研究一組數據集，該數據集有一堆原始文本，我將其用於向量化並在我的矩陣中用於隨機森林迴歸。我的問題是，我應該把每個單詞當作一個.factor還是一個.numeric，如果它是一個稀疏矩陣？哪一個加快了計算時間？R文本挖掘和隨機森林

我的理解是R矩陣將因素強制爲字符，所以你最好使用數字。

我對RandomForest並不熟悉 - 我對它的功能有一個總體的瞭解，但我不確定它的R實現的內涵。如果你需要給它一個設計矩陣（例如，當你手工實現它們時ANOVA或GLM是如何工作的），你可以嘗試使用model.matrix函數。

2015-05-09 16:19:52

回答