評估帶註釋數據的NLP分類器

如果我們想要評估NLP應用程序的分類器，其數據是用兩個註釋器註釋的，並且它們在註釋上沒有完全一致，那麼過程如何？也就是說，如果我們應該將分類器輸出與註釋者同意的數據部分進行比較？或只是其中一個註釋器數據？或者兩者分開，然後計算平均值？評估帶註釋數據的NLP分類器

來源

2017-08-02 Hasan Zafari

以註釋者之間的多數投票爲常見。拋出分歧也完成了。

Here的一篇博客文章中關於這個問題：

假設我們有一堆註釋的，我們沒有對項目完全一致。我們做什麼？那麼，在實踐中，機器學習的演示傾向於（1）沒有同意地拋棄示例（例如，RTE evals，一些生物命名實體evals等），或者（2）與大多數標籤一起了解）。無論哪種方式，我們都通過將標籤減少到人爲確定性來丟棄大量信息。您可以通過模擬很容易地看到這一點，而Raykar等人用真實數據顯示它。

什麼對你很重要，取決於你的數據和註釋者不同意的方式;對於初學者來說，爲什麼不只使用他們認同的項目，然後看看那些模型與他們不同意的模型進行比較？

來源

2017-08-02 07:13:28 polm23

評估帶註釋數據的NLP分類器

回答

相關問題