我正在嘗試從文本數據構建預測模型。我從文本數據(unigram和bigram)中構建文檔項矩陣,並在其上創建了不同類型的模型(如svm,隨機森林,最近鄰居等)。所有的技術都取得了不錯的成績,但我想改善結果。我嘗試通過更改參數來調整模型,但這似乎並沒有提高性能。對我來說可能的下一步是什麼?文本分析:術語文檔矩陣?
0
A
回答
1
這是不是一個真正的編程問題,但無論如何:
如果你的目標是預測,而不是文本分類,常用的方法是退避模型(Katz Backoff)和插值/平滑,例如Kneser-Ney smoothing。
像Random Forest這樣的更復雜的模型是AFAIK不是絕對必要的,如果你需要快速做出預測的話可能會造成問題。如果您正在使用插值模型,則仍然可以使用數據的保留部分來調整模型參數(lambda)。
最後,我同意閱讀部分的NEO,並會推薦Jurafsky和Martin的「語音和語言處理」。
+0
謝謝。順便提一下,我可以在哪裏發佈這些類型的問題? –
相關問題
- 1. Bigram分析和術語文檔矩陣
- 2. 如何計算術語文檔矩陣?
- 3. 從文本文件創建術語文檔矩陣
- 4. 很多文章的單詞列表 - 文檔 - 術語矩陣
- 5. 矩陣術語
- 6. 文件,術語矩陣與Quanteda
- 7. 在java中爲LSI實現創建術語文檔矩陣
- 8. 使用python從csv讀取術語 - 文檔矩陣
- 9. 您如何規範化R中文檔術語矩陣的行?
- 10. 來自術語文檔矩陣的關聯
- 11. 將CSV格式的術語文檔矩陣導入到R
- 12. 按行合併兩個文檔術語矩陣
- 13. 只保留文檔術語矩陣中的特定格式R
- 14. 將函數應用於多個文檔術語矩陣
- 15. 創建文檔術語矩陣時出現屬性錯誤
- 16. 如何用TF-IDF文檔 - 術語矩陣表示新文檔,以及如何用大矩陣實現生產?
- 17. 計算術語x術語矩陣
- 18. 文檔的正確術語
- 19. SVD中的一個術語文檔矩陣不給我重視我想
- 20. 在字符串中查找單詞時計算術語文檔矩陣也
- 21. 轉換一個術語的文檔矩陣到節點/邊列表中的R
- 22. 如何根據每個術語出現的頻率過濾術語文檔矩陣
- 23. 大文檔的文本分析
- 24. 術語在文本
- 25. 文本的語義分析
- 26. 從雙列創建一個術語頻矩陣出現矩陣
- 27. [R文本挖掘轉換期限文檔矩陣
- 28. scipy/sklearn用於文檔分類的稀疏矩陣分解
- 29. 如何上傳ShinyApp中的文本文件夾以獲取R中文件語料庫中的文檔術語矩陣?
- 30. 如何確定每個文檔中術語的術語頻率?
來預測究竟是什麼? – user3639557