2017-04-06 199 views
0

我在Android應用程序中使用tesseract進行OCR。我專注於中文,但我只需要識別幾個關鍵字,因此我正在考慮使用jTessBoxEditor創建我的.traineddata文件。我想知道中文傳統TessData文件使用什麼字體? https://github.com/tesseract-ocr/tessdataTesseract用於訓練的TessData字體

另外,有沒有辦法,我可以編輯chi_tra.traineddata文件,所以它只能識別幾個關鍵字?我這樣做的主要原因是因爲文件大小爲63.4 MB,並且tesseract需要大約2到3分鐘才能完成。準確度很高,但速度很慢。

回答

1

所有tesseract受過培訓的語言的font_properties文件可在github中找到。您可以檢查列表中支持的繁體中文特定字體。

tesseract-ocr/langdata文件夾here在github上,你可以檢查chi_tra.wordlistchi_tra文件夾中找到用於訓練的話。

相關問題