據我所知,Tesseract 3.x帶有6個英文(如果我錯了,糾正我)字體。我需要培訓Tesseract更多5種字體。我只需要大寫字母和數字(沒有特殊字符或符號)。「添加」新字體到Tesseract eng.traineddata
我也跟着例如各種過程: Adding New Fonts to Tesseract 3 OCR Engine
,並使用工具,像 Serak Tesseract Trainer for Tesseract 3.02
自動化過程產生箱文件我用QT Box Editor
使用上述工具後,我得到eng.traineddata
文件。所有教程都告訴我將eng.traineddata
文件添加到Tesseract-OCR\tessdata
文件夾,但這樣做會取代原始文件eng.traineddata
。這樣做後,我會失去Tesseract 3.x的默認字體?
如何添加新字體?它對我仍然不清楚。我希望有人能幫助我。謝謝。
我可以在哪裏指定語言選項-l eng + eng1? – manu 2014-04-16 09:04:12
這聽起來可能太懶惰了,但是有沒有辦法提供一個字體文件作爲輸入(對一個網站來說),並提供了一個訓練有素的「tessdata」作爲輸出? – tipycalFlow 2014-05-14 14:10:35
@tipycalFlow [jTessBoxEditor](http://vietocr.sourceforge.net/training.html)有一個TIFF /盒子生成器。您可以提供一個字體文件並獲得一個正確值的框。通過[Serak Tesseract Trainer](http://code.google.com/p/serak-tesseract-trainer/),您可以完成剩下的工作。 – 2014-12-19 09:51:27