2017-08-02 73 views
1

如果我們想要評估NLP應用程序的分類器,其數據是用兩個註釋器註釋的,並且它們在註釋上沒有完全一致,那麼過程如何? 也就是說,如果我們應該將分類器輸出與註釋者同意的數據部分進行比較?或只是其中一個註釋器數據?或者兩者分開,然後計算平均值?評估帶註釋數據的NLP分類器

回答

0

以註釋者之間的多數投票爲常見。拋出分歧也完成了。

Here的一篇博客文章中關於這個問題:

假設我們有一堆註釋的,我們沒有對項目完全一致。我們做什麼?那麼,在實踐中,機器學習的演示傾向於(1)沒有同意地拋棄示例(例如,RTE evals,一些生物命名實體evals等),或者(2)與大多數標籤一起了解)。無論哪種方式,我們都通過將標籤減少到人爲確定性來丟棄大量信息。您可以通過模擬很容易地看到這一點,而Raykar等人用真實數據顯示它。

什麼對你很重要,取決於你的數據和註釋者不同意的方式;對於初學者來說,爲什麼不只使用他們認同的項目,然後看看那些模型與他們不同意的模型進行比較?