如何提高查詢和文檔相似性度量python TFIDF，BM25精度，召回

我試着爲查詢和文檔計算TF-IDF，並使用COS距離對結果進行排名並得到Top50類似文檔。同樣，我計算BM25得分並將最高BM25得分評爲No.1，並獲得前50個相似文件。如何提高查詢和文檔相似性度量python TFIDF，BM25精度，召回

但是，對於TF-IDF和BM25，結果都不好。

（數據集是標籤測試數據集的大小爲1400的文檔。）：

For example in the testing dataset judgment 

the queryID=1 
the relevant document ID is : 19.txt, 25.txt, 35.txt, 38.txt,133.txt,45.txt

....................... ...............

在我創建的搜索系統中輸入queryID = 1之後。它從1400個文件中檢索了365個文件。

所以我用了IT-IDF排名queryID = 1，365個文件

the system might only return the relevant document ID: 38.txt

同樣，我用BM25排名queryID = 1，365個文件

the system might only return the relevant document ID: 19.txt

通過檢查365 365文檔中手動創建文檔：它實際上包含相關文檔ID：19.txt，25.txt，35.txt，38.txt，45.txt和另一個不相關的文檔ID。

由於差的相似性度量，它會影響精度和召回率。我可以知道如何提高精度，召回率或排名方法嗎？

2016-12-05 dd90p

我認爲你應該向前邁進一步，並使用語言模型進行信息檢索。使用這個Tutorial from Stanford University。

2016-12-05 13:30:48 Alikbar

詳細說明您的答案，儘管您將OP指向一個很好的教程，但您可以給出一些介紹性的想法並說出爲什麼語言模型對OP的任務會更好。否則你可以寫這個評論。 –

回答