我試着爲查詢和文檔計算TF-IDF,並使用COS距離對結果進行排名並得到Top50類似文檔。 同樣,我計算BM25得分並將最高BM25得分評爲No.1,並獲得前50個相似文件。如何提高查詢和文檔相似性度量python TFIDF,BM25精度,召回
但是,對於TF-IDF和BM25,結果都不好。
(數據集是標籤測試數據集的大小爲1400的文檔。):
For example in the testing dataset judgment
the queryID=1
the relevant document ID is : 19.txt, 25.txt, 35.txt, 38.txt,133.txt,45.txt
....................... ...............
在我創建的搜索系統中輸入queryID = 1之後。它從1400個文件中檢索了365個文件。
所以我用了IT-IDF排名queryID = 1,365個文件
the system might only return the relevant document ID: 38.txt
同樣,我用BM25排名queryID = 1,365個文件
the system might only return the relevant document ID: 19.txt
通過檢查365 365文檔中手動創建文檔:它實際上包含相關文檔ID:19.txt,25.txt,35.txt,38.txt,45.txt和另一個不相關的文檔ID。
由於差的相似性度量,它會影響精度和召回率。 我可以知道如何提高精度,召回率或排名方法嗎?
詳細說明您的答案,儘管您將OP指向一個很好的教程,但您可以給出一些介紹性的想法並說出爲什麼語言模型對OP的任務會更好。否則你可以寫這個評論。 –