如何計算IDF？

非常感謝您在TF/IDF網站上提供的幫助。它幫助我很多在Java中使用tf-idf函數。我做了tf，但我有一個問題。就像他們在wiki上寫的那樣，IDF可以計算出有多少文檔有這個詞。但我很困惑。如何計算IDF？

例如，這裏是字符串「JosAH很棒，JoshAH岩石」，所以TF將是2/5，IDF有兩個文件，每個文件包含JoshAH術語。所以我們只要看看這個詞是否出現在其他文檔中，或者我們會看到它在其他文檔中出現了多少次？

2009-12-28 user238384

我不完全確定你在這裏問什麼。無論如何，IDF的目的--- 逆文件頻率 ---是爲了抑制非常頻繁的條件得分，並提高偶然條件的得分。

在您收集的兩份文件中，「JosAH」的IDF將爲0--因爲它出現在所有文件中。

2009-12-28 00:31:19

謝謝Alex，讓我解釋一下我的問題。在1個文件中，我可以計算詞頻以查看一個單詞出現的次數。但是對於以色列國防軍來說，我應該看看它是否發生在其他文件或否。或者我還應該看看在其他文檔中出現了多少次？如果你仍然有任何問題，請不要問我。謝謝 – user238384 2009-12-28 00:41:20

IDF的數學定義應該由您的教科書定義。引用維基百科：逆文檔頻率是衡量該詞一般重要性的指標（通過將所有文檔數除以包含該詞的文檔數，然後取該商的對數得到）。所以你需要知道它發生的文件數*，文件數*總數。不過，您不需要每個文檔的出現次數。 – 2009-12-28 00:44:09

可以說一些我們如何計算TF/IDF和術語是「JosAH」及其 tf/idf = 0.232 但我們希望看到與第2個文檔的完整文檔相似性，所以我必須計算每個術語的TF/IDF？然後總結它得到實際的tf/idf ???如果我錯了，那麼請糾正我 – user238384 2009-12-28 03:17:42

文檔頻率爲「的包含術語集合中的文檔數」（從Introduction to Information Retrieval），所以你的話選擇前者，「只是看看這個詞出現」。

來源

2009-12-28 00:31:37

如何計算IDF？

回答

相關問題