開源OCR

我正在尋找一個開源的OCR庫在Linux上運行。我需要這個工作PNG和PDF。主要是我想從Java或Ruby接口這個庫。任何想法，如果有什麼可用的？開源OCR

問候。

2011-03-01 Chris

已檢查該文本是不是在PDF已經上市，對不對？（我依稀記得，PNG，可能還需要存儲文本的能力，但我可能是錯那裏）。 – 2011-05-15 23:37:12

http://www.roncemer.com/software-development/java-ocr – Trick 2012-08-28 08:49:30

Cuneiform是免費的，做一個體面的工作。你可以調用它作爲一個子程序，但沒有語言的結合，我知道的。它不會直接讀取PDF文件，但你可以很容易地拆開是養活他們楔形文字掃描圖像序列的PDF文件。還有一些腳本來重新組裝圖像和文本返回到一個可搜索的PDF。

2011-03-01 08:04:19

該項目已通過惠普實驗室推出，現在由谷歌繼續和贊助（對於谷歌圖書！）。它在Apache許可證下發布，並在Linux上運行。它使用Tiff或PNG文件;對於PDF文件，您將需要轉換爲這些格式之一。我想沒有綁定，所以你應該調用這個軟件作爲子程序...

2011-03-01 08:05:15 olivierlemasle

嘗試tesjeract，它使用JNI調用Tesseract OCR API。

對於PDF，你需要首先轉換成圖像，使用GhostScript的，例如。

2011-05-15 00:27:29 nguyenq

回答