2012-02-19 128 views
2

我試圖識別一個圖像(形式)並轉換成文本,目前使用谷歌「tesseract-ocr」的egg.trained數據,這適用於打印字符和手動書寫(寫由我手動)我開發了一個訓練有素的數據,這對我訓練的人物來說很好。無論我想合併這兩個訓練的數據(tesseract-ocr +我自己訓練的數據),所以我可以識別手寫和打印字符在一個單一的形式,請讓我知道如何將這兩個文件合併成一個。合併兩個OCR訓練數據

回答

5

無需合併它們。 Tesseract 3.02支持多種語言的識別 - 例如,您可以指定「egg + eng + blah」作爲-l選項的值。

+0

thx的答覆,即時通訊使用Tesseract 3.01,不支持你提到的功能,有沒有什麼辦法可以在3.1版本中做同樣的事情,或者我如何下載tesseract,猜測它不是正常的。 – optimus 2012-02-20 16:26:37

+1

您可以從http://code.google.com/p/tesseract-ocr/source/checkout中查看源代碼並構建3.02可執行文件。 – nguyenq 2012-02-20 16:44:28

+0

Thx爲你的時間,我嘗試使用SVN並嘗試下載,但它說不存在。 命令:導出 錯誤:URL'http://tesseract-ocr.googlecode.com/svn/trunk/%20tesseract-ocr-read-only' 錯誤:不存在 已完成!: – optimus 2012-02-20 17:23:29