2013-04-24 77 views
0

我正在尋找一個在Windows XP上運行的開源OCR庫。我需要這個工作的圖像和PDF文件。大多數情況下我想從java接口這個庫。任何想法,如果有什麼可用的?在Windows XP上運行的開源OCR庫

問候。

回答

1

檢查Tesseract

正方體可能是目前最準確的開源OCR引擎。結合Leptonica圖像處理庫,它可以讀取各種圖像格式,並將其轉換爲60多種語言的文本。它是1995年UNLV精度測試中排名前三的發動機之一。在1995年到2006年之間,它幾乎沒有完成任何工作,但從那時起,Google已經進行了大量改進。它是在Apache許可證2.0下發布的。

正方體工作在Linux,的Windows(與VC++ Express或CygWin的) 和Mac OSX

這裏是一個comparision table from wiki

0

我想看看在Apache提卡項目並將其與Tesseract OCR結合使用。 Apache Tika管理從各種各樣的文件類型中打開和提取內容。它具有非常可插拔的設計,因此您可以連接OCR進行輸入,甚至可以將其輸出連接到Lucene進行搜索。它是純粹的Java。

+0

但蒂卡提取文本信息,對不對?圖像(元數據除外)怎麼樣? – rajesh 2013-04-24 07:14:48

0

退房Tess4J,一個Java JNA包裝爲正方體OCR API。