2015-05-14 334 views
0

我正在嘗試從文本數據構建預測模型。我從文本數據(unigram和bigram)中構建文檔項矩陣,並在其上創建了不同類型的模型(如svm,隨機森林,最近鄰居等)。所有的技術都取得了不錯的成績,但我想改善結果。我嘗試通過更改參數來調整模型,但這似乎並沒有提高性能。對我來說可能的下一步是什麼?文本分析:術語文檔矩陣?

+0

來預測究竟是什麼? – user3639557

回答

1

這是不是一個真正的編程問題,但無論如何:

如果你的目標是預測,而不是文本分類,常用的方法是退避模型(Katz Backoff)和插值/平滑,例如Kneser-Ney smoothing

像Random Forest這樣的更復雜的模型是AFAIK不是絕對必要的,如果你需要快速做出預測的話可能會造成問題。如果您正在使用插值模型,則仍然可以使用數據的保留部分來調整模型參數(lambda)。

最後,我同意閱讀部分的NEO,並會推薦Jurafsky和Martin的「語音和語言處理」。

+0

謝謝。順便提一下,我可以在哪裏發佈這些類型的問題? –