由於您是新手,我正在簡要介紹如何在信息檢索系統中計算精度,召回率,fscore,AP和MAP。
準確率和查
精密措施「的所有文件,我們檢索爲相關的多少實際上是相關的?」。
Precision = No. of relevant documents retrieved/No. of total documents retrieved
召回措施「在所有實際相關文件中,我們檢索了多少相關的文件?」。
Recall = No. of relevant documents retrieved/No. of total relevant documents
假設,當查詢「Q」被提交到信息檢索系統(例如,搜索引擎),具有100個相關文件w.r.t.在查詢「q」時,系統從總共600個文件中檢索68個文件。在68份檢索到的文件中,有40份文件是相關的。所以,在這種情況下:
Precision = 40/68 = 58.8%
和Recall = 40/100 = 40%
F-得分/ F-措施的準確率和召回加權調和平均數。傳統的F-措施或平衡F-比分是:
F-Score = 2 * Precision * Recall/Precision + Recall
平均準確
你可以認爲它是這樣的:你在Google
鍵入的東西,它會顯示10個結果。如果所有這些都是相關的,這可能是最好的。如果只有一些是相關的,比如說其中的五個,那麼如果首先顯示相關的那個會更好。如果前五個是不相關的,好的只從第六個開始,那會不好呢? AP分數反映了這一點。
給予下面的例子:
AvgPrec兩個排名:
排名#1:(1.0 + 0.67 + 0.75 + 0.8 + 0.83 + 0.6)/6 = 0.78
排名#2:(0.5 + 0.4 + 0.5 + 0.57 + 0.56 + 0.6)/6 = 0.52
平均精確度(MAP)
MAP是多個查詢/排名的平均精度的平均值。舉例說明。
平均數平均精度爲兩個查詢:
對於查詢1,AvgPrec: (1.0+0.67+0.5+0.44+0.5)/5 = 0.62
對於查詢2,AvgPrec: (0.5+0.4+0.43)/3 = 0.44
所以,MAP = (0.62 + 0.44)/2 = 0.53
有時,人們使用[email protected]
,[email protected]
作爲檢索系統的性能指標。要做實驗,你可以使用衆所周知的AOL Search Query Logs數據集來建立一個基於檢索的系統(你只需要一個檢索功能),然後做實驗。我給出了文檔排序功能的一個例子。
文件排序/檢索功能
霍加皮BM25(BM代表最佳匹配)是一種用於搜索引擎根據相關性,以給定的搜索查詢的排名匹配文檔排名函數。它基於概率檢索框架。 BM25是檢索功能,其基於出現在每個文檔中的查詢術語排列一組文檔,而不管文檔內查詢術語之間的相互關係(例如,它們的相對鄰近度)如何。有關更多詳細信息,請參閱Wikipedia頁面。