特徵向量：訓練對測試集的權重計算

我正在使用支持向量機進行文本分類，但基本上我與測試集的特徵向量的計算混淆。對於訓練特徵向量，我對每個訓練數據採用TF-IDF向量，並使用TF-IDF值構建特徵矩陣[docs x terms]。特徵向量：訓練對測試集的權重計算

但是如何計算測試集的特徵向量？我應該使用訓練集中的TF-IDF值來計算它嗎？

例如：在針對特定單詞「apple」的訓練集中，文檔頻率爲5. 對於測試集，我應該使用值「5」作爲「apple」嗎？或者根據測試集重新計算TF-IDF？或者說，我在計算特徵向量時會出錯嗎？

在此先感謝！

2013-04-20 na9090

您應該使用訓練集計算每個術語的IDF（逆文檔頻率）。然後，您應該對測試集中的文檔使用相同的IDF。 TF另一方面取決於你想要分類的具體文件，因此測試和訓練集中的不同文件將會有所不同。

2013-04-21 21:37:57

你好。這種方法有沒有參考？優選來自文獻ty中的文章 – MonsterMMORPG 2016-04-29 00:16:44

回答