如何使用scikit查找關於文檔的術語TF-IDF

-1

但是我有一個問題，TF-IDF應該依賴於一個術語，該術語的文檔以及所有要分析的文檔的集合。例如，

因此，例如。在A和B兩個文件的集合中，如果我們使用文件A計算TF-IDF而不是相同的術語，但通過分析文件B的術語頻率，術語'馬'應該得到不同的TF-IDF得分。

如何使用scikit來計算關於特定文檔的術語的TF-IDF？

2017-07-18 aukaman

在教程至極你提到的TF-IDF計算公式爲：

tfidf_matrix = tf.fit_transform(corpus)

名言：「如果我們看一下tfidf_matrix，我們希望它是一個208 X 498254 矩陣 - 一個一行每集，一個列每句「。因此，每個短語的TF-IDF 對於該矩陣中的每個情節（文本）是不同的。如你所料。

矩陣元素tfidf_matrix [document，phrase]是語料庫（所有文檔）的特定文檔中每個特定短語的TF-IDF值。

2017-07-19 12:40:33 CrazyElf

回答