我應該裁剪還是墊Tesseract OCR學習盒

我目前正在教Tesseract v3.02以識別英國駕駛執照卡。我正在使用QT Box Editor生成.box文件，因此我可以「訓練」tesseract來識別這些文檔的字體和佈局。所以我想問一個問題：我是不是每封信都要仔細剪裁，或者最好是給它，比如一個1px的填充全面？我應該裁剪還是墊Tesseract OCR學習盒

來源

2017-05-25 Captain Kenpachi

所以答案是「任何似乎使引擎識別文本最好」。一旦編譯完* .traineddata文件並對其進行測試，您只會知道它。

來源

2017-05-26 08:45:43

我正在用美國司機許可證從網站的攝像頭做同樣的事情。我正計劃使用命令行版本，以便我可以從我的網站調用它，但最終可能會使用API。無論哪種情況，我是否可以訓練tesseract在何處查看名稱，地址和DOB的許可證，但不使用圖形界面來閱讀？基本上，仍然用命令行讀取圖像，但教它在哪裏看？ – Tanoshimi

我不知道。你可能不得不問問開發人員。我最終使用了另一個（高級）包，它實際上告訴你它找到的每個單詞的像素座標。從這個角度來看，我可以使用預定義的模板來確定這個詞應該是什麼。所以它實際上告訴我它在哪裏找到了這個單詞，而且我知道如果它落在ID號碼的範圍內，那它實際上是一個ID號碼。 –

我應該裁剪還是墊Tesseract OCR學習盒

回答

相關問題