1
我對相關性得分是如何計算的文檔中讀取。但是我仍然無法理解爲什麼他們考慮了逆文檔頻率。逆文檔頻率如何影響文檔的相關性?重要性彈性搜索相關的計算逆文檔頻率的得分
我對相關性得分是如何計算的文檔中讀取。但是我仍然無法理解爲什麼他們考慮了逆文檔頻率。逆文檔頻率如何影響文檔的相關性?重要性彈性搜索相關的計算逆文檔頻率的得分
基本上,如果時間T是很常見的(如像停用詞,「和」,「中」,等等),並可以在文檔中的一個很大的發現,你可能不感興趣,讓所有的文件回來,你可能不希望術語T影響得分太多。
這就是TF/IDF公式中IDF部分的工作,這意味着較少的術語將對評分提供更高的貢獻,因此爲什麼術語T在給定文檔中的術語頻率TF乘以IDF整個文檔語料庫的這個術語。顯然,越多的文件包含一個給定的術語,這個術語應該是不那麼相關/有區別的。
的術語,「大象」在文檔d中出現了幾次,但不一定在所有其他文件,將有助於給文檔d得分高於所有其他文件。
一個術語「和」出現在幾乎每一個文件將難有作爲比分,因爲IDF可以忽略不計。
謝謝..清除一切。 –
真棒,很高興它幫助。 – Val