加速tessearct

我一直在linux上使用tesseract（Ver 3）從掃描的pdf文件中提取文本。整個過程很慢，很慢的問題。例如，解壓縮（http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf）20頁文檔需要514秒（8+分鐘）加速tessearct

轉換PDF我使用Image Magick轉換應用程序。波紋管我使用的設置命令。

轉換-density 288 src.pdf -colorspace灰色-depth 8-α關閉tmp.tif

正方體tmp.tif out.txt

。注意，否則失敗的Tesseract是288 dpi的需要完全從我測試的掃描文件中提取文本。

是否有人知道如何在不影響結果質量的情況下加快速度？

2011-05-02 John

嘗試VietOCR以查看它是否可以根據需要生成更快的結果。如果安裝了Ghostscript，它可以接受PDF。

2011-05-20 02:57:09 nguyenq

回答