2012-12-05 68 views
1

我使用.train文件設置了數據集,其非常大的文件爲100MB文件。我想執行NER來提取組織名稱。我使用OpenNLP進行了培訓。使用OpenNLP訓練大型數據集

示例代碼:

TokenNameFinderModel model=NameFinderME.train("en","organization", 
       sampleStream,Collections.<String, Object>emptyMap()); 

但我得到一個錯誤:ArrayIndexOutofBoundException

是否有任何方式使用openNLP爲NER訓練大型數據集?你能發佈示例代碼嗎?

當我谷歌搜索時,我發現類GIS和DataIndexer接口可以用來訓練大型數據集,但我知道如何?你能發佈示例代碼嗎?

回答

2

我可以用更大的數據創建模型而不會有任何問題。您的.train文件中的標記可能存在問題。另外,如果您可以發佈完整的異常,它會有所幫助嗎?

對於訓練較大的模型,我只需簡單地校準截止點並增加Java內存。

+0

是的,它的工作,實際上它是我的tarin文件中的問題,現在模型已經創建。並感謝wcolen – user1858712

+0

需要多少時間來訓練模型?謝謝 –