我正在尋找一個在Windows XP上運行的開源OCR庫。我需要這個工作的圖像和PDF文件。大多數情況下我想從java接口這個庫。任何想法,如果有什麼可用的?在Windows XP上運行的開源OCR庫
問候。
我正在尋找一個在Windows XP上運行的開源OCR庫。我需要這個工作的圖像和PDF文件。大多數情況下我想從java接口這個庫。任何想法,如果有什麼可用的?在Windows XP上運行的開源OCR庫
問候。
http://roncemer.com/software-development/java-ocr/
「的Java OCR是用於圖像處理和字符識別純Java庫套件。」
正方體可能是目前最準確的開源OCR引擎。結合Leptonica圖像處理庫,它可以讀取各種圖像格式,並將其轉換爲60多種語言的文本。它是1995年UNLV精度測試中排名前三的發動機之一。在1995年到2006年之間,它幾乎沒有完成任何工作,但從那時起,Google已經進行了大量改進。它是在Apache許可證2.0下發布的。
正方體工作在Linux,的Windows(與VC++ Express或CygWin的) 和Mac OSX
我想看看在Apache提卡項目並將其與Tesseract OCR結合使用。 Apache Tika管理從各種各樣的文件類型中打開和提取內容。它具有非常可插拔的設計,因此您可以連接OCR進行輸入,甚至可以將其輸出連接到Lucene進行搜索。它是純粹的Java。
有由熱上做研究關於OCR龐大的工作,看看this
退房Tess4J,一個Java JNA包裝爲正方體OCR API。
但蒂卡提取文本信息,對不對?圖像(元數據除外)怎麼樣? – rajesh 2013-04-24 07:14:48