2011-03-01 63 views
15

我正在尋找一個開源的OCR庫在Linux上運行。我需要這個工作PNG和PDF。主要是我想從Java或Ruby接口這個庫。任何想法,如果有什麼可用的?開源OCR

問候。

+0

已檢查該文本是不是在PDF已經上市,對不對? (我依稀記得,PNG,可能還需要存儲文本的能力,但我可能是錯那裏)。 – 2011-05-15 23:37:12

+0

http://www.roncemer.com/software-development/java-ocr – Trick 2012-08-28 08:49:30

回答

1

Cuneiform是免費的,做一個體面的工作。你可以調用它作爲一個子程序,但沒有語言的結合,我知道的。它不會直接讀取PDF文件,但你可以很容易地拆開是養活他們楔形文字掃描圖像序列的PDF文件。還有一些腳本來重新組裝圖像和文本返回到一個可搜索的PDF。

12

正方體是一個非常好的OCR引擎:https://github.com/tesseract-ocr/tesseract

該項目已通過惠普實驗室推出,現在由谷歌繼續和贊助(對於谷歌圖書!)。它在Apache許可證下發布,並在Linux上運行。它使用Tiff或PNG文件;對於PDF文件,您將需要轉換爲這些格式之一。我想沒有綁定,所以你應該調用這個軟件作爲子程序...

0

嘗試tesjeract,它使用JNI調用Tesseract OCR API。

對於PDF,你需要首先轉換成圖像,使用GhostScript的,例如。