我正在實施OCR系統。 Tesseract API用於提取。圖像在提取文本之前使用OpenCV進行預處理。在預處理灰度化下,進行銳化和自適應閾值處理。在提取圖像中的文本後,獲得以下輸出。Tesseract不清楚的文本提取
期望輸出
Let's talk ;-)
輸出後獲得了
" yr _ W??? V. ? _
W fag '7? |g§3:? V
é claw?!
是否有人知道這樣做的原因? 我編輯了這個問題,採取了不同的路徑來實現我的項目。我輸入一個圖像,並使用opnCV來銳化圖像。這是輸入圖像。 input image
然後我得到了以下輸出。 Sharpened output image。當我使用Tesseract Api的銳化圖像時,它提供了字符混合。但是,如果我將輸入圖像提供給Tesseract API,則它會正確提取單詞。如何去除銳化圖像中的陰影區域?
這是我用鋒利的輸入圖像
try {
System.loadLibrary(Core.NATIVE_LIBRARY_NAME);
Mat source = Imgcodecs.imread("input.jpg",
Imgcodecs.CV_LOAD_IMAGE_GRAYSCALE);
Mat destination = new Mat(source.rows(), source.cols(), source.type());
Imgproc.equalizeHist(source, destination);
Imgcodecs.imwrite("sharpen.jpg", destination);
} catch (Exception e) {
System.out.println("error: " + e.getMessage());
}
什麼是輸入圖像? – Ferrybig
這是一個帶有文本的jpg圖像讓我們來談談;-) –
我嘗試在Java項目中使用tesseract從我們網站上的圖像中提取文本。我得到了混合的結果,我們使用的圖像通常是500 x 500像素。 – neal