所以我終於OpenNLP納入我的項目,我已經成功培訓了15,000行的訓練數據的我的模型,將其存儲,並且可以加載它,當我想用它來識別我的程序中的實體! ,我用它來識別井號標籤,所以我的訓練數據看起來是這樣的: ...
Jim , I know you to be a fighter <START:HASHTAG> #usmarine <END> @ USMC Kira has your
我有許多美國學校年鑑的人臉肖像和名稱的掃描頁面。來自頁面的所有文本都是OCR化的並且每個頁面以多個版本收集: 非結構化文本文件。 Example Xml帶有每句話的座標。 Example 帶有每個單個字母的座標的Xml。 Example 的目標是,以確定哪些文本字符串代表的人的名字,並將其與人像有關。問題在於每一本年鑑都是獨一無二的,每一頁都可能是獨一無二的,所以沒有共同的模式可以應用(但可能有一