2013-05-13 49 views
1

我有一個使用案例,聊天文本將被分類。我想在Apache OpenNLP中使用DocumentCategorizer對聊天進行分類。但爲此,我必須擁有應該已經分類的聊天室的訓練數據。我是否需要手動對數百個聊天進行分類以準備培訓和測試數據?我還可以做些什麼?我打算聊天類別是服務相關的問題。然後這個類別列表將是域特定的。該數據的提供者應該向我提供分類的聊天數據嗎? 提前致謝。如何在沒有培訓數據時對聊天文本進行分類?

回答

3

根據定義,不能有沒有標記數據的分類問題。要麼有人標註(至少部分)數據,要麼嘗試以不同的方式解決問題。

- 編輯補充的是如何解決問題的一些例子,而不分類:

一般而言,根據特定的任務,你可以嘗試解決通過羣集和/或文檔或「分類」問題長期匹配。聚類會將與同一主題相關的文檔分組在一起,而術語匹配將觀察引用特定術語的文檔。如果沒有可用的培訓數據,但您對問題有一定的瞭解,則無論採用哪種方法,還是兩者結合,都可能足以滿足您的信息需求。

對於您的具體問題,我會開始嘗試羣集聊天。

+0

是啊,這應該是一路go.I「會聚集聊天數據羣集需要過濾不重要的內容,我們調用。停止詞彙和詞幹,並確保訓練數據反映實際數據。就訓練數據準備而言,這是否足夠?請提出建議,如果你認爲是不合適的話 – user2377122 2013-05-15 11:24:38

+0

這聽起來是正確的,分析一下他們每個人的潛在意義是很有意思的。例如,看哪些條款最爲顯眼。這可以爲您提供額外的信息。 – miguelmalvarez 2013-05-15 18:34:25

0

雖然羣集可讓您對文本進行分類並識別其中的主題,但無監督方法通常會降低控制分類性能的靈活性,但如果您沒有標記數據,它們仍然是最佳工具。然而,最近在零射擊和少射擊學習方面取得的進展可以讓你用少量(100-200個訓練數據)或根本沒有訓練數據來構建分類器。您的分類器仍然保留監督分類器的所有好處,併爲您提供對所有類別的全部控制。

我已經構建了一個這樣的系統,您可以在您自己的類別和數據上嘗試demo以查看系統的實際運行情況。

其他資源:

  1. https://www.quora.com/Whats-the-difference-between-one-shot-learning-and-zero-shot-learning
  2. https://arxiv.org/abs/1710.10280
相關問題