1
我一直在linux上使用tesseract(Ver 3)從掃描的pdf文件中提取文本。 整個過程很慢,很慢的問題。例如,解壓縮(http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf)20頁文檔需要514秒(8+分鐘)加速tessearct
轉換PDF我使用Image Magick轉換應用程序。 波紋管我使用的設置命令。
轉換-density 288 src.pdf -colorspace灰色-depth 8-α關閉tmp.tif
正方體tmp.tif out.txt
。注意,否則失敗的Tesseract是288 dpi的需要完全從我測試的掃描文件中提取文本。
是否有人知道如何在不影響結果質量的情況下加快速度?