0

我試着爲查詢和文檔計算TF-IDF,並使用COS距離對結果進行排名並得到Top50類似文檔。 同樣,我計算BM25得分並將最高BM25得分評爲No.1,並獲得前50個相似文件。如何提高查詢和文檔相似性度量python TFIDF,BM25精度,召回

但是,對於TF-IDF和BM25,結果都不好。

(數據集是標籤測試數據集的大小爲1400的文檔。):

For example in the testing dataset judgment 

the queryID=1 
the relevant document ID is : 19.txt, 25.txt, 35.txt, 38.txt,133.txt,45.txt 

....................... ...............

在我創建的搜索系統中輸入queryID = 1之後。它從1400個文件中檢索了365個文件。

所以我用了IT-IDF排名queryID = 1,365個文件

the system might only return the relevant document ID: 38.txt 

同樣,我用BM25排名queryID = 1,365個文件

the system might only return the relevant document ID: 19.txt 

通過檢查365 365文檔中手動創建文檔:它實際上包含相關文檔ID:19.txt,25.txt,35.txt,38.txt,45.txt和另一個不相關的文檔ID。

由於差的相似性度量,它會影響精度和召回率。 我可以知道如何提高精度,召回率或排名方法嗎?

回答

0

我認爲你應該向前邁進一步,並使用語言模型進行信息檢索。使用這個Tutorial from Stanford University

+1

詳細說明您的答案,儘管您將OP指向一個很好的教程,但您可以給出一些介紹性的想法並說出爲什麼語言模型對OP的任務會更好。否則你可以寫這個評論。 –