想象一下,你要預測一定的「事件」(編碼爲:0,1,2,3,...,N)數量有限句子(編碼爲內:0,1,2,...,S )的一系列論文(編碼爲0,1,...,P)。計算百萬註釋的F分數的最快方法是什麼?
你的機器學習算法返回下面的文件:
paper,position,event 0,0,22 0,12,38 0,15,18 0,23,3 1,1064,25 1,1232,36 ...
,並要計算基於類似的地面實況數據文件中的F-得分:
paper,true_position,true_event 0,0,22 0,12,38 0,15,18 0,23,3 1,1064,25 1,1232,36 ...
由於你有很多論文和數百萬個這樣的文件,計算每篇論文的F分數的最快方法是什麼?
PS注意什麼保證這兩個文件將具有相同數目的位置,ML算法可能會錯誤地識別不在地面實況位置。
不能您使用快速訪問優化的數據庫系統? – runDOSrun
你是什麼意思? – mrb
我想任何你會遇到的瓶頸都是由於訪問這些文件並將它們讀入內存引起的。你可以詢問獲取分佈在大量文件中的平均值,並得到與這個問題相同的答案。這不是關於優化FScore計算,而是訪問數據。看看如何在大數據中計算統計度量。 – runDOSrun