2017-07-18 44 views
-1

我正在嘗試將scikit應用於自然語言處理,並且先閱讀一些教程。我找到了這一個http://www.markhneedham.com/blog/2015/02/15/pythonscikit-learn-calculating-tfidf-on-how-i-met-your-mother-transcripts/,它解釋瞭如何從一組文檔中獲得tfidf分數。如何使用scikit查找關於文檔的術語TF-IDF

但是我有一個問題,TF-IDF應該依賴於一個術語,該術語的文檔以及所有要分析的文檔的集合。例如,

因此,例如。在A和B兩個文件的集合中,如果我們使用文件A計算TF-IDF而不是相同的術語,但通過分析文件B的術語頻率,術語''應該得到不同的TF-IDF得分。

如何使用scikit來計算關於特定文檔的術語的TF-IDF?

回答

0

在教程至極你提到的TF-IDF計算公式爲:

tfidf_matrix = tf.fit_transform(corpus) 

名言:「如果我們看一下tfidf_matrix,我們希望它是一個208 X 498254 矩陣 - 一個一行每集,一個列每句「。 因此,每個短語的TF-IDF 對於該矩陣中的每個情節(文本)是不同的。如你所料。

矩陣元素tfidf_matrix [document,phrase]是語料庫(所有文檔)的特定文檔中每個特定短語的TF-IDF值。