2014-11-20 77 views
2

當使用創建聚類數據培訓正方體新字體

mftraining -F font_properties -U unicharset -O lan.unicharset *.tr 

我得到以下信息

C:\Users\ \AppData\Local\Tesseract-OCR>mftraining -F font_properties -U unicharset -O eng1.unicharset eng.lucidaconsole.box.tr <http://eng.lucidaconsole.box.tr> 

Warning: No shape table file present: shapetable 
Failed to load unicharset from file unicharset 
Building unicharset for training from scratch... 
Failed to load unicharset from file unicharset 
Building unicharset for boosting from scratch... 
Failed to load unicharset from file unicharset 
Building unicharset for boosting from scratch... 
Failed to load unicharset from file unicharset 
Building unicharset for boosting from scratch... 
Reading eng.lucidaconsole.box.tr <http://eng.lucidaconsole.box.tr> ... 

Flat shape table summary: Number of shapes = 0 max unichars = 0 number with multiple unichars = 0 

Done! 

它重建了,我已經做了unicharset並給我一個與1KB 價值只有這個數據

1 
NULL 0 NULL 0 

在這一點上,我不k現在該怎麼做。我是這個程序的第一次使用者,但對我來說這似乎不正確?

+0

我爲你清理了你的問題。請在發佈時儘量讓事情看起來不錯,並歡迎來到StackOverflow。 – mlissner 2014-11-20 20:15:38

回答

1

看起來您需要對培訓頁面的字符特徵進行聚類,如here所述。

我相信這個基本的命令是一樣的東西:

shapeclustering -F font_properties -U unicharset lang.fontname.exp0.tr lang.fontname.exp1.tr ... 

這似乎是在3.02版本中添加一些東西。

+0

你知道鏈接頁面移到哪裏嗎?我找不到一個好匹配。謝謝 – 2016-04-18 17:00:02

+0

可悲的是。來自Google代碼的Exodus會帶來收益。 – mlissner 2016-04-18 17:37:47

0

如果您使用Windows,我認爲this tool可以幫助您使訓練過程變得更加簡單。在使用之前,我經歷了很多學習如何訓練Tesseract的麻煩。只需下載最新版本並閱讀用戶手冊,您就可以在不碰觸鍵盤的情況下培訓您Tesseract!