2011-05-02 85 views
1

我一直在linux上使用tesseract(Ver 3)從掃描的pdf文件中提取文本。 整個過程很慢,很慢的問題。例如,解壓縮(http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf)20頁文檔需要514秒(8+分鐘)加速tessearct

轉換PDF我使用Image Magick轉換應用程序。 波紋管我使用的設置命令。

轉換-density 288 src.pdf -colorspace灰色-depth 8-α關閉tmp.tif

正方體tmp.tif out.txt

。注意,否則失敗的Tesseract是288 dpi的需要完全從我測試的掃描文件中提取文本。

是否有人知道如何在不影響結果質量的情況下加快速度?

回答

0

嘗試VietOCR以查看它是否可以根據需要生成更快的結果。如果安裝了Ghostscript,它可以接受PDF。