Tesseract用於訓練的TessData字體

我在Android應用程序中使用tesseract進行OCR。我專注於中文，但我只需要識別幾個關鍵字，因此我正在考慮使用jTessBoxEditor創建我的.traineddata文件。我想知道中文傳統TessData文件使用什麼字體？ https://github.com/tesseract-ocr/tessdata Tesseract用於訓練的TessData字體

另外，有沒有辦法，我可以編輯chi_tra.traineddata文件，所以它只能識別幾個關鍵字？我這樣做的主要原因是因爲文件大小爲63.4 MB，並且tesseract需要大約2到3分鐘才能完成。準確度很高，但速度很慢。

來源

2017-04-06 Rgfvfk Iff

所有tesseract受過培訓的語言的font_properties文件可在github中找到。您可以檢查列表中支持的繁體中文特定字體。

從tesseract-ocr/langdata文件夾here在github上，你可以檢查chi_tra.wordlist內chi_tra文件夾中找到用於訓練的話。

來源

2017-04-07 14:38:24 thewaywewere

Tesseract用於訓練的TessData字體

回答

相關問題