使用OpenNLP訓練大型數據集

我使用.train文件設置了數據集，其非常大的文件爲100MB文件。我想執行NER來提取組織名稱。我使用OpenNLP進行了培訓。使用OpenNLP訓練大型數據集

示例代碼：

TokenNameFinderModel model=NameFinderME.train("en","organization", 
       sampleStream,Collections.<String, Object>emptyMap());

但我得到一個錯誤：ArrayIndexOutofBoundException。

是否有任何方式使用openNLP爲NER訓練大型數據集？你能發佈示例代碼嗎？

當我谷歌搜索時，我發現類GIS和DataIndexer接口可以用來訓練大型數據集，但我知道如何？你能發佈示例代碼嗎？

我可以用更大的數據創建模型而不會有任何問題。您的.train文件中的標記可能存在問題。另外，如果您可以發佈完整的異常，它會有所幫助嗎？

對於訓練較大的模型，我只需簡單地校準截止點並增加Java內存。

2012-12-05 20:58:18 wcolen

是的，它的工作，實際上它是我的tarin文件中的問題，現在模型已經創建。並感謝wcolen – user1858712

需要多少時間來訓練模型？謝謝 –

回答