我有一個使用案例,聊天文本將被分類。我想在Apache OpenNLP中使用DocumentCategorizer對聊天進行分類。但爲此,我必須擁有應該已經分類的聊天室的訓練數據。我是否需要手動對數百個聊天進行分類以準備培訓和測試數據?我還可以做些什麼?我打算聊天類別是服務相關的問題。然後這個類別列表將是域特定的。該數據的提供者應該向我提供分類的聊天數據嗎? 提前致謝。如何在沒有培訓數據時對聊天文本進行分類?
1
A
回答
3
根據定義,不能有沒有標記數據的分類問題。要麼有人標註(至少部分)數據,要麼嘗試以不同的方式解決問題。
- 編輯補充的是如何解決問題的一些例子,而不分類:
一般而言,根據特定的任務,你可以嘗試解決通過羣集和/或文檔或「分類」問題長期匹配。聚類會將與同一主題相關的文檔分組在一起,而術語匹配將觀察引用特定術語的文檔。如果沒有可用的培訓數據,但您對問題有一定的瞭解,則無論採用哪種方法,還是兩者結合,都可能足以滿足您的信息需求。
對於您的具體問題,我會開始嘗試羣集聊天。
0
雖然羣集可讓您對文本進行分類並識別其中的主題,但無監督方法通常會降低控制分類性能的靈活性,但如果您沒有標記數據,它們仍然是最佳工具。然而,最近在零射擊和少射擊學習方面取得的進展可以讓你用少量(100-200個訓練數據)或根本沒有訓練數據來構建分類器。您的分類器仍然保留監督分類器的所有好處,併爲您提供對所有類別的全部控制。
我已經構建了一個這樣的系統,您可以在您自己的類別和數據上嘗試demo以查看系統的實際運行情況。
其他資源:
相關問題
- 1. 培訓OpenNLP文檔分類
- 2. 有沒有可以針對新符號進行培訓的OCR?
- 3. 如何在Hadoop環境中對Inception圖像分類器進行再培訓
- 4. 在twitter數據上執行分類器培訓
- 5. 如何增量培訓naivebayes分類器?
- 6. 如何格式化數據集以進行Python培訓?
- 7. 如何在一個hdf5數據文件中讀取批次進行培訓?
- 8. 如何在MATLAB中訓練大數據集以進行分類
- 9. 我可以使用自定義的培訓數據集來培訓Microsoft文本分析爲定製版本嗎?
- 10. Tensorflow分批培訓數據批量
- 11. 在PHP中進行培訓註冊
- 12. 如何針對自定義NameFinder模型進行OpenNLP培訓?
- 13. 如何創建培訓數據
- 14. 信譽數據庫培訓
- 15. Python培訓數據集
- 16. 培訓數據準備
- 17. 分佈式Tensorflow,Master在培訓時卡住了,工作人員沒有開始培訓,而使用SyncReplicasOptimizer和MonitoredTrainingSession?
- 18. 如何在hadoop集羣上運行xgboost進行分佈式模型培訓?
- 19. 對數據進行分類
- 20. 如何在apache模型訓練後對新的訓練樣例進行分類?
- 21. 如何創建Google聊天按鈕進行聊天?
- 22. 谷歌預測API - 建築分類器培訓數據
- 23. 培訓和測試數據結構:槌子分類器
- 24. 使用自定義數據集而不是MNIST進行培訓
- 25. 通過Tensorflow進行培訓和預測
- 26. 如何根據頻率對文本列進行分類
- 27. 在線培訓
- 28. 您應該何時堅持使用新技術進行培訓?
- 29. TensorFlow培訓不起作用:模型沒有學習數據
- 30. ASP.NET文本聊天和視頻聊天
是啊,這應該是一路go.I「會聚集聊天數據羣集需要過濾不重要的內容,我們調用。停止詞彙和詞幹,並確保訓練數據反映實際數據。就訓練數據準備而言,這是否足夠?請提出建議,如果你認爲是不合適的話 – user2377122 2013-05-15 11:24:38
這聽起來是正確的,分析一下他們每個人的潛在意義是很有意思的。例如,看哪些條款最爲顯眼。這可以爲您提供額外的信息。 – miguelmalvarez 2013-05-15 18:34:25