2014-10-05 58 views
6

我正在嘗試向tesseract ocr添加新字體。我正在關注this tutorial,但我遇到了一些問題。向Tesseract添加新字體3

這是我到目前爲止已經完成:

  1. 創建培訓文件

    convert eng.myfont.exp0.pdf eng.myfont.exp0.tif

  2. 列車正方體

    tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox

    這造成了我的eng.myfont .exp0.box文件。

    我用moshpytt打開文件並確保它被正確檢測到。

  3. 訂閱文件盒放回正方體

    tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr

    我有這樣的結果:

    與Leptonica正方體開源OCR引擎V3.03
    APPLY_BOXES:
    箱閱讀from boxfile:146
    找到146個不錯的blob。
    TRAINING ...字體名稱= myfont.exp0
    6個詞語

    • eng.myfont.exp0.box.tr文件和eng.myfont.exp0.box.txt生成的訓練數據生成
  4. 嘗試檢測箱文件中使用的字符集(這是我卡住)

    unicharset_extractor *.box

結果:

unicharset_extractor:找不到命令

我也TRED unicharset_extractor eng.myfont.exp0.box具有相同的結果。

我使用:

  • 正方體3.03
  • leptonica-1.70
  • libgif 4.1.6(?):libjpeg的8D:libpng的50年1月2日:4.0.3的libtiff:zlib的1.2。 8:WEBP 0.4.0
  • 的Ubuntu 14.04.1 LTS
+0

這很奇特。這只是表示無法找到該命令。在我的系統上,我能夠在'/ usr/local/bin/unicharset_extractor'中找到沒有任何問題的命令。 – mlissner 2014-10-06 07:24:28

回答

6

爲正方體3.03 RC的培訓工具是從Ubuntu的14.04省略。所以要麼回到Tesseract 3.02,要麼升級到Ubuntu 14.10。

+0

我在OS X EI Captain 10.11.1終端中也遇到同樣的問題。我使用以下版本tesseract 3.04.01 leptonica-1.72 libjpeg 8d:libpng 1.6.21:libtiff 4.0.6:zlib 1.2.5 – 2016-03-30 09:10:31