2014-09-05 83 views
-4

我正在嘗試製作一個應用程序,它可以從圖像中生成可編輯的文檔文件(doc或pdf)。我打算使用tesseract來提取文本。但是我不確定如何獲得文檔圖像中可能存在的文字(大小,粗體,斜體,下劃線)的基本格式。我打算使用J2EE來創建一個基於Web的應用程序(必須使用J2EE)。我想我可以使用OpenCV識別文檔的組件和格式,但我不確定。將圖像轉換爲文檔

回答

1

鑑於您計劃使用Tesseract作爲基本的OCR功能,請嘗試查看hORC格式的輸出。這包括相當多的有關字體大小,字體面,位置等信息,

你可以找到HOCR的描述在這裏: https://docs.google.com/document/d/1QQnIQtvdAC_8n92-LhwPcjtAUFwBlzE8EWnKAxlgVf0/preview#heading=h.e903b9bca924

如果不奏效,這取決於您想要投入Tesseract多少努力。它的內部API(通過Tess4J等Java提供)確實提供了許多重構頁面佈局所需的信息。