如何在沒有培訓數據時對聊天文本進行分類？

我有一個使用案例，聊天文本將被分類。我想在Apache OpenNLP中使用DocumentCategorizer對聊天進行分類。但爲此，我必須擁有應該已經分類的聊天室的訓練數據。我是否需要手動對數百個聊天進行分類以準備培訓和測試數據？我還可以做些什麼？我打算聊天類別是服務相關的問題。然後這個類別列表將是域特定的。該數據的提供者應該向我提供分類的聊天數據嗎？提前致謝。如何在沒有培訓數據時對聊天文本進行分類？

來源

2013-05-13 user2377122

根據定義，不能有沒有標記數據的分類問題。要麼有人標註（至少部分）數據，要麼嘗試以不同的方式解決問題。

- 編輯補充的是如何解決問題的一些例子，而不分類：

一般而言，根據特定的任務，你可以嘗試解決通過羣集和/或文檔或「分類」問題長期匹配。聚類會將與同一主題相關的文檔分組在一起，而術語匹配將觀察引用特定術語的文檔。如果沒有可用的培訓數據，但您對問題有一定的瞭解，則無論採用哪種方法，還是兩者結合，都可能足以滿足您的信息需求。

對於您的具體問題，我會開始嘗試羣集聊天。

來源

2013-05-13 18:07:37 miguelmalvarez

是啊，這應該是一路go.I「會聚集聊天數據羣集需要過濾不重要的內容，我們調用。停止詞彙和詞幹，並確保訓練數據反映實際數據。就訓練數據準備而言，這是否足夠？請提出建議，如果你認爲是不合適的話 – user2377122 2013-05-15 11:24:38

這聽起來是正確的，分析一下他們每個人的潛在意義是很有意思的。例如，看哪些條款最爲顯眼。這可以爲您提供額外的信息。 – miguelmalvarez 2013-05-15 18:34:25

雖然羣集可讓您對文本進行分類並識別其中的主題，但無監督方法通常會降低控制分類性能的靈活性，但如果您沒有標記數據，它們仍然是最佳工具。然而，最近在零射擊和少射擊學習方面取得的進展可以讓你用少量（100-200個訓練數據）或根本沒有訓練數據來構建分類器。您的分類器仍然保留監督分類器的所有好處，併爲您提供對所有類別的全部控制。

我已經構建了一個這樣的系統，您可以在您自己的類別和數據上嘗試demo以查看系統的實際運行情況。

其他資源：

來源

2017-12-25 13:44:51 ankits

如何在沒有培訓數據時對聊天文本進行分類？

回答

相關問題