2017-05-25 82 views
1

我目前正在教Tesseract v3.02以識別英國駕駛執照卡。我正在使用QT Box Editor生成.box文件,因此我可以「訓練」tesseract來識別這些文檔的字體和佈局。所以我想問一個問題:我是不是每封信都要仔細剪裁,或者最好是給它,比如一個1px的填充全面?我應該裁剪還是墊Tesseract OCR學習盒

回答

0

所以答案是「任何似乎使引擎識別文本最好」。一旦編譯完* .traineddata文件並對其進行測試,您只會知道它。

+0

我正在用美國司機許可證從網站的攝像頭做同樣的事情。我正計劃使用命令行版本,以便我可以從我的網站調用它,但最終可能會使用API​​。無論哪種情況,我是否可以訓練tesseract在何處查看名稱,地址和DOB的許可證,但不使用圖形界面來閱讀?基本上,仍然用命令行讀取圖像,但教它在哪裏看? – Tanoshimi

+0

我不知道。你可能不得不問問開發人員。我最終使用了另一個(高級)包,它實際上告訴你它找到的每個單詞的像素座標。從這個角度來看,我可以使用預定義的模板來確定這個詞應該是什麼。所以它實際上告訴我它在哪裏找到了這個單詞,而且我知道如果它落在ID號碼的範圍內,那它實際上是一個ID號碼。 –