自然語言分類器返回未經培訓的項目的分類

我對NLC的工作原理感到困惑。我的期望是，當要求對文本進行分類時，應該沒有關係或訓練數據，以便從中得出結論或結果，但不會返回非常低的置信度分數。自然語言分類器返回未經培訓的項目的分類

我已經用一組訓練數據訓練了一個模型，當我嘗試對訓練數據之外的文本進行分類時，我得到的結果具有高置信度值（〜60％）。

這裏是我的訓練數據的例子：

foo,1,2,3,4 
bar,1,2,3,4 
baz,1,2,3,4

當我嘗試文本分類「這應該不存在」我獲得了極高的信心，這個文本是「1」。

我的假設是正確的，我應該在這種情況下返回值？我訓練數據來錯誤地分類foo，bar和baz嗎？如果不是，我應該從NLC服務中期望什麼？

想象一下，你有3個水桶，你必須在其中一個投擲硬幣。每桶有33.3％的變化來獲得硬幣。自然語言分類器服務也一樣。它訓練將輸入文本分類到預定義的類中。

如果您使用3個類創建分類器，並嘗試對不在訓練數據中的文本進行分類，NLC仍然會將您的句子分類爲您定義的三個類中的一個。如果你的輸出是60％，那麼其他兩個桶將得到剩餘的40％。

有時你可能會得到高分，當你有非常不同的課時，這很正常。

2017-04-30 20:02:47

回答