文本分析：術語文檔矩陣？

我正在嘗試從文本數據構建預測模型。我從文本數據（unigram和bigram）中構建文檔項矩陣，並在其上創建了不同類型的模型（如svm，隨機森林，最近鄰居等）。所有的技術都取得了不錯的成績，但我想改善結果。我嘗試通過更改參數來調整模型，但這似乎並沒有提高性能。對我來說可能的下一步是什麼？文本分析：術語文檔矩陣？

來源

2015-05-14 Joswin K J

來預測究竟是什麼？ – user3639557

這是不是一個真正的編程問題，但無論如何：

如果你的目標是預測，而不是文本分類，常用的方法是退避模型（Katz Backoff）和插值/平滑，例如Kneser-Ney smoothing。

像Random Forest這樣的更復雜的模型是AFAIK不是絕對必要的，如果你需要快速做出預測的話可能會造成問題。如果您正在使用插值模型，則仍然可以使用數據的保留部分來調整模型參數（lambda）。

最後，我同意閱讀部分的NEO，並會推薦Jurafsky和Martin的「語音和語言處理」。

來源

2015-05-14 12:32:12 thie1e

謝謝。順便提一下，我可以在哪裏發佈這些類型的問題？ –

文本分析：術語文檔矩陣？

回答

相關問題