2015-11-06 74 views
1

想象一下,你要預測一定的「事件」(編碼爲:0,1,2,3,...,N)數量有限句子(編碼爲內:0,1,2,...,S )的一系列論文(編碼爲0,1,...,P)。計算百萬註釋的F分數的最快方法是什麼?

你的機器學習算法返回下面的文件:

paper,position,event 0,0,22 0,12,38 0,15,18 0,23,3 1,1064,25 1,1232,36 ...

,並要計算基於類似的地面實況數據文件中的F-得分:

paper,true_position,true_event 0,0,22 0,12,38 0,15,18 0,23,3 1,1064,25 1,1232,36 ...

由於你有很多論文和數百萬個這樣的文件,計算每篇論文的F分數的最快方法是什麼?

PS注意什麼保證這兩個文件將具有相同數目的位置,ML算法可能會錯誤地識別不在地面實況位置。

+0

不能您使用快速訪問優化的數據庫系統? – runDOSrun

+0

你是什麼意思? – mrb

+0

我想任何你會遇到的瓶頸都是由於訪問這些文件並將它們讀入內存引起的。你可以詢問獲取分佈在大量文件中的平均值,並得到與這個問題相同的答案。這不是關於優化FScore計算,而是訪問數據。看看如何在大數據中計算統計度量。 – runDOSrun

回答

1

只要在兩個文件中條目的排列使您可以直接在線比較線,我不明白爲什麼這將是緩慢的處理數百萬行的O(n)的時間,即使是在您的筆記本電腦。

+0

謝謝。但是沒有什麼能保證這兩個文件具有相同數量的選項。我的意思是,這是算法應該尋找的東西。 – mrb

+0

那我不確定這個問題。假設您的基本事實是「0,0,22」,那麼您的預測可能會有什麼結果? 「0,0,21」,「0,1,22」,「0,2,20」還是什麼也沒有?你如何定義真正的負面和錯誤的負面? – piggybox

+0

做正確的方法是考慮的文件(即,第一列)爲固定的數量。給定的一個紙,可能必須,說,2個真陽性(即,在位置和值是正確的),和3個誤報(任一位置或值是錯誤的),和1個假陰性。這對你更有意義嗎?問題是該算法可能會返回大量誤報。一種方法可能是爲所有文件X的所有位置生成一個文件,但在內存方面會花費很多。 – mrb

相關問題