2

我正在使用支持向量機進行文本分類,但基本上我與測試集的特徵向量的計算混淆。對於訓練特徵向量,我對每個訓練數據採用TF-IDF向量,並使用TF-IDF值構建特徵矩陣[docs x terms]。特徵向量:訓練對測試集的權重計算

但是如何計算測試集的特徵向量?我應該使用訓練集中的TF-IDF值來計算它嗎?

例如:在針對特定單詞「apple」的訓練集中,文檔頻率爲5. 對於測試集,我應該使用值「5」作爲「apple」嗎?或者根據測試集重新計算TF-IDF?或者說,我在計算特徵向量時會出錯嗎?

在此先感謝!

回答

5

您應該使用訓練集計算每個術語的IDF(逆文檔頻率)。然後,您應該對測試集中的文檔使用相同的IDF。 TF另一方面取決於你想要分類的具體文件,因此測試和訓練集中的不同文件將會有所不同。

+0

你好。這種方法有沒有參考?優選來自文獻ty中的文章 – MonsterMMORPG 2016-04-29 00:16:44

相關問題