2012-08-09 137 views
1

我正在爲我的數字圖像處理的最終檢查製作名片掃描儀,我會問你如何預處理名片的照片,以便tesseract可以識別文本。我嘗試了很多東西,比如侵蝕,擴張,閾值,但是我不能有一個好的結果......你能幫助我嗎?圖像預處理tesseract

謝謝

馬爾科

+2

提供一些圖像以顯示您的採集質量如何。 – krzych 2012-08-09 09:29:14

回答

2

如果您關注的是隻有文字識別,而不是關於預處理,可以考慮使用ScanTailor。它是一個優秀的預處理工具,它是開源的。

如果您想自己實現預處理,您可能需要查看this paper - 尤其是偏斜校正和背景估計。這裏描述的算法的結果很好。 ScanTailor使用其中的一些。

+0

這是很棒的信息!我一直在努力進行預處理,你的答案是我聽說過的第一個ScanTailor。有沒有類似的非互動工具? – Ivar 2014-03-10 05:58:36

+0

@Ivar還有一個免費工具 - ocropus提供命令行界面。根據我的經驗,除非您的輸入圖像幾乎精確無誤,否則全自動方法將無法正常工作。我還記得付費工具Abby精細閱讀器 - 但我沒有使用它。 – go4sri 2014-03-12 05:59:15

2

我會推薦開放源代碼的C++圖像處理庫OpenCV與開源免費光學字符識別(OCR)庫tesseract的組合。 因爲你的你的問題的信息不是很具體,我可以回答一般 你的問題在OCR的主要程序是:

  1. 對圖像進行某種預處理
  2. 文本檢測,讓您的ROI(感興趣區域,包含文本的區域)
  3. 字符檢測(以純文本圖像,並把它作爲輸入的Tesseract

幾句話的Tesseract: 有是網上圖書館提供的大量信息。這是一個谷歌開放源碼庫用於谷歌書籍OCR的目的。也可以處理圖像中的佈局分析,但並不完美,因此您自己進行預處理並僅使用tesseract來處理真實的字符識別部分,可以獲得更好的效果。隨意質疑,如果你仍然有問題,或者如果我錯誤理解你的問題。