將圖像轉換爲文檔

-4

我正在嘗試製作一個應用程序，它可以從圖像中生成可編輯的文檔文件（doc或pdf）。我打算使用tesseract來提取文本。但是我不確定如何獲得文檔圖像中可能存在的文字（大小，粗體，斜體，下劃線）的基本格式。我打算使用J2EE來創建一個基於Web的應用程序（必須使用J2EE）。我想我可以使用OpenCV識別文檔的組件和格式，但我不確定。將圖像轉換爲文檔

來源

2014-09-05 Shaurya Chaudhuri

鑑於您計劃使用Tesseract作爲基本的OCR功能，請嘗試查看hORC格式的輸出。這包括相當多的有關字體大小，字體面，位置等信息，

你可以找到HOCR的描述在這裏： https://docs.google.com/document/d/1QQnIQtvdAC_8n92-LhwPcjtAUFwBlzE8EWnKAxlgVf0/preview#heading=h.e903b9bca924

如果不奏效，這取決於您想要投入Tesseract多少努力。它的內部API（通過Tess4J等Java提供）確實提供了許多重構頁面佈局所需的信息。

來源

2014-09-10 18:29:24

將圖像轉換爲文檔

回答

相關問題