2012-08-14 185 views
2

我在我的iOS應用程序中使用Tesseract OCR 3.01,當我從手機庫中選取圖像時,它顯示90%的準確性。但是如果我使用相機中的相同圖像,它會顯示混亂的字母。我跟着this tutorial,好心引導我,如果可以做些什麼來確保它可以在相機上工作,因爲它適用於圖庫圖像。Tesseract OCR相機

回答

2

幾乎肯定問題是「定位」。蘋果傾向於以一個位圖的形式創建圖像 - 圖像位的排列方式就好像相機在音量按鈕的右側和右側一樣。您看到的高於寬度的圖像仍按上述佈局,但圖像中包含的EXIF對象中有一個「方向」。

我想猜測tesseract不會看EXIF,但期望圖像處於「標準」格式,以便文本處於閱讀文本的人的位置。

您可以使用右上角的音量按鈕拍攝的相機圖像測試我的假設。

如果它們工作,那麼您將需要做的是自己處理圖像,並根據方向設置重新排列位。這並不是所有這些都很難做到的事情,但需要您閱讀vImage和/或位圖上下文。

+0

即使這樣的輸出來等特殊符號 – srividya 2012-08-14 11:46:37

+0

例如「5>;¢%〜_»」。'__»M'〜<__"> 7_'i¢「~~ _ '「' _,$ 35 _f」 _ <__ _ __;「> s <_:3_;' _。_'__--〜.._〜> _〜。<〜; _4f'fn _x> .__,__._ _ - '= _ j'@_f;:_ ;;「__'-' 「_」; _'_'。「」 – srividya 2012-08-14 11:47:13

+0

顯然,圖像有些不同之處!看看它們的大小 - 相機圖像是否更大?方向是否影響結果?我沒有這個框架的經驗,也許其他人有,並可以直接回答這個問題 – 2012-08-14 11:59:25

3

是的,有三件事情需要具體說明,首先,OCR適用於黑白圖像而非彩色圖像,所以如果您可以嘗試將圖像轉換爲B,則會提高準確性。

第二件事是尺寸和方向,你需要強制圖像爲640 * 480或320尺寸,這將增加識別速度和準確性,對於定位,有很多的管理方式。最後,如果某些方法可以允許用戶指定他想要執行OCR的圖像的哪一部分或哪部分,則由於庫不需要檢查整個圖像,這大大增加了準確性和時間對於文本而言,您已經指定了要搜索的部分。

PS:我一直在爲過去幾周創建一個OCR應用程序。