處理分類模型中的新功能

我正在邁出ML的第一步，特別是用於文本情感分析的分類器。我的方法是製作通常的80％訓練數據集和20％的測試。有一個訓練有素的模型什麼是出現新特徵時在生產環境中進行的最佳方式（初始數據集中不存在文本中的新詞）？處理分類模型中的新功能

在分類任務中，必須在列車時間看到所有的特徵，並且以後不能將新特徵添加到預測階段。爲了您的問題，您可以使用Stemming或Lemmatizing。或類似的東西LDA或Word2Vec有大量的文檔他們訓練

2017-08-07 18:23:58 Masoud

是你所描述的通常被稱爲「出來的詞彙」問題（OOV）出現在詞測試集，但不在訓練集中。傳統的方法是用一個特殊的標記（例如「UNKNOWN」）表示每個OOV詞，並且實際上在訓練數據中包含這些詞。在Jurafsky和Martin的「語音和語言處理」的Section 4.3中更全面地討論了這種方法。

更現代的方法是使用Word2Vec。這是在神經網絡中發現的真正的advanced topic。

回答