我正在嘗試向tesseract ocr添加新字體。我正在關注this tutorial,但我遇到了一些問題。向Tesseract添加新字體3
這是我到目前爲止已經完成:
創建培訓文件
convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
列車正方體
tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox
這造成了我的eng.myfont .exp0.box文件。
我用moshpytt打開文件並確保它被正確檢測到。
訂閱文件盒放回正方體
tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr
我有這樣的結果:
與Leptonica正方體開源OCR引擎V3.03
APPLY_BOXES:
箱閱讀from boxfile:146
找到146個不錯的blob。
TRAINING ...字體名稱= myfont.exp0
6個詞語- eng.myfont.exp0.box.tr文件和eng.myfont.exp0.box.txt生成的訓練數據生成
嘗試檢測箱文件中使用的字符集(這是我卡住)
unicharset_extractor *.box
結果:
unicharset_extractor:找不到命令
我也TRED unicharset_extractor eng.myfont.exp0.box
具有相同的結果。
我使用:
- 正方體3.03
- leptonica-1.70
- libgif 4.1.6(?):libjpeg的8D:libpng的50年1月2日:4.0.3的libtiff:zlib的1.2。 8:WEBP 0.4.0
- 的Ubuntu 14.04.1 LTS
這很奇特。這只是表示無法找到該命令。在我的系統上,我能夠在'/ usr/local/bin/unicharset_extractor'中找到沒有任何問題的命令。 – mlissner 2014-10-06 07:24:28