2016-03-07 66 views
0

我必須制定一個很好的基於NER CRF的模型。我針對的是一個廣闊的領域,我所針對的類別總數爲17個。我還做了一套很好的功能集(austen.prop),這些功能集應該通過大量的實驗爲我工作。 NER沒有產生好的結果。我需要知道這是在訓練數據大小等
制定斯坦福大學CRF培訓資料的慣例

的情況下CRF NER的限制我搜索了很多,但到現在爲止,我無法找到一個人應該在做訓練數據遵守的規則。

(注:我完全知道如何使模型,並使用它,我只需要知道的是有每個對象類的一定比例應該存在任何等等慣例)

如果有人能指導我,我會感謝你。

回答

0

對於英語,一個標準的訓練數據集是CoNLL 2003,其中有4,000個類別(ORG,PERSON,LOCATION,MISC)的15,000個標記句子。

+0

這真的很有幫助。你能否也指導我瞭解NER的侷限性? –

相關問題