制定斯坦福大學CRF培訓資料的慣例

我必須制定一個很好的基於NER CRF的模型。我針對的是一個廣闊的領域，我所針對的類別總數爲17個。我還做了一套很好的功能集（austen.prop），這些功能集應該通過大量的實驗爲我工作。 NER沒有產生好的結果。我需要知道這是在訓練數據大小等
制定斯坦福大學CRF培訓資料的慣例

的情況下CRF NER的限制我搜索了很多，但到現在爲止，我無法找到一個人應該在做訓練數據遵守的規則。

（注：我完全知道如何使模型，並使用它，我只需要知道的是有每個對象類的一定比例應該存在任何等等慣例）

如果有人能指導我，我會感謝你。

對於英語，一個標準的訓練數據集是CoNLL 2003，其中有4,000個類別（ORG，PERSON，LOCATION，MISC）的15,000個標記句子。

2016-03-07 15:38:35 StanfordNLPHelp

這真的很有幫助。你能否也指導我瞭解NER的侷限性？ –

回答