2017-04-11 84 views
0

我對NLC的工作原理感到困惑。我的期望是,當要求對文本進行分類時,應該沒有關係或訓練數據,以便從中得出結論或結果,但不會返回非常低的置信度分數。自然語言分類器返回未經培訓的項目的分類

我已經用一組訓練數據訓練了一個模型,當我嘗試對訓練數據之外的文本進行分類時,我得到的結果具有高置信度值(〜60%)。

這裏是我的訓練數據的例子:

foo,1,2,3,4 
bar,1,2,3,4 
baz,1,2,3,4 

當我嘗試文本分類「這應該不存在」我獲得了極高的信心,這個文本是「1」。

我的假設是正確的,我應該在這種情況下返回值?我訓練數據來錯誤地分類foo,bar和baz嗎?如果不是,我應該從NLC服務中期望什麼?

回答

0

想象一下,你有3個水桶,你必須在其中一個投擲硬幣。每桶有33.3%的變化來獲得硬幣。自然語言分類器服務也一樣。它訓練將輸入文本分類到預定義的類中。

如果您使用3個類創建分類器,並嘗試對不在訓練數據中的文本進行分類,NLC仍然會將您的句子分類爲您定義的三個類中的一個。如果你的輸出是60%,那麼其他兩個桶將得到剩餘的40%。

有時你可能會得到高分,當你有非常不同的課時,這很正常。