2017-08-08 118 views
0

我在使用Tesseract識別文本時遇到問題,需要一些幫助。Tesseract - 識別文本問題

第一個是輸入,這是非常模糊的,不得到認可:

fuzzytext

第二個是一個輸入,給出了一個破碎的結果:

texterrors

它返回這個壞的結果:

「我曲軸的力量每次燃燒發生時,fo當曲軸將扭矩傳遞到輸出軸上時,曲軸會影響曲軸。這種缺陷發生在兩種方式之中,即在軸的邊緣方式中,以扭轉軸在扭轉軸上的方式。跑ankshaft德FL ections被edirectly相關oper-的einng。當後臺和-F提出」

我打電話使用此命令行PHP這也許可以修改,以提供更好的結果窗口EXE的阿婷粗糙度:

$exe = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'; 
$image = 'Book.png'; 
$output = 'Out'; 
$language = ''; // '-l deu' = German etc 

$img = 'Images/' . $image; 

exec("\"$exe\" \"$img\" \"$output\" {$language} "); 

我怎樣才能返回正確的結果爲兩個圖像?

+0

我與正方體的經驗,這是一個平均的結果。文本的輕微旋轉可能會導致這些問題,你有沒有考慮糾正? –

+0

我該怎麼做? – zeddex

+1

我推薦phpgd庫或Imagick。但真正的問題將是檢測旋轉,因爲我認爲你想識別各種圖像,而不僅僅是這個,你可以在那裏預先定義旋轉。或者是否可以手動定義每個圖像的旋轉角度? –

回答

0

使用ImageMagick和形態關閉和打開一個可以提高第一張圖像。

convert jrxjek.png -morphology close diamond:1 -morphology open diamond:1 jrxjek_close_open.png 

enter image description here

在ImageMagick中使用我的一個bash unix shell腳本,可以自動檢測文本圖像中的旋轉並對其進行歪斜/反旋轉。

textdeskew crankshaft.png crankshaft_textdeskew.png 

enter image description here

見我的劇本在http://www.fmwconcepts.com/imagemagick/index.html