2016-07-25 52 views

回答

1

基本上,如果時間T是很常見的(如像停用詞,「和」,「中」,等等),並可以在文檔中的一個很大的發現,你可能不感興趣,讓所有的文件回來,你可能不希望術語T影響得分太多。

這就是TF/IDF公式中IDF部分的工作,這意味着較少的術語將對評分提供更高的貢獻,因此爲什麼術語T在給定文檔中的術語頻率TF乘以IDF整個文檔語料庫的這個術語。顯然,越多的文件包含一個給定的術語,這個術語應該是不那麼相關/有區別的。

的術語,「大象」在文檔d中出現了幾次,但不一定在所有其他文件,將有助於給文檔d得分高於所有其他文件。

一個術語「和」出現在幾乎每一個文件將難有作爲比分,因爲IDF可以忽略不計。

+0

謝謝..清除一切。 –

+0

真棒,很高興它幫助。 – Val