我在文本數據上使用了一個決策樹,並將n個最頻繁的項存儲在一個變量中,我嘗試在rpart
函數的公式中使用此變量。但是,我得到的錯誤是:R中的rpart:公式中的變量
Error in model.frame.default(formula = class ~ x, data = dtm.df, na.action = function (x): variable lengths differ (found for 'x')
x = findFreqTerms(dtm, 0.5)
fit = rpart(class ~ x, data = dtm.train
是否可以填入公式,而不必手動輸入所有的功能會自動?
從你提供給它的示例代碼顯然是這裏的問題的公式。正如在[關於配方類的R文檔](https://stat.ethz.ch/R-manual/R-devel/library/stats/html/formula.html)中指出的那樣,「這樣的模型由一系列術語本身由變量和因子名稱(...)組成,這個術語被解釋爲術語中出現的所有變量和因素的相互作用。「首先,這裏沒有用於迴歸的變量;其次,由於'x'不包含出現在其中的所有類的因素,它會引發錯誤。 –
那麼應該如何在文本數據上使用rpart? '〜'後面應該是來自文檔術語矩陣的單詞,不是? – vdvaxel
您能否向我們提供您想分類的數據樣本?在'〜'之後,你需要變量名或'.',就像'class〜Variable1 + Variable2 + Variable3'或者'class〜.'一樣。 –