PDF to tiff ImageMagick問題

我正在嘗試將pdf轉換爲tiff圖像以用於以下OCR。我使用「-density 300x300 -depth 8」作爲參數。第一個問題是，從500 KB的pdf文件我得到72 MB的tiff文件。第二個問題是產生的圖像質量差導致OCR失敗。在這裏你可以自己看。 Adobe Acrobat Reader軟件生成（印製）的TIFF圖像： enter image description here PDF to tiff ImageMagick問題

ImageMaggick TIFF圖像： enter image description here

的差別是很大的。我怎樣才能像使用ImageMaggick生成的圖像一樣好？其他格式也不錯，不過其他的格式也不錯。

UPD：我找到'antialias'選項。現在它好多了。但仍然OCR結果不如Adobe版本那麼準確。

來源

2011-05-14 clumpter

其實Adobe的一個更糟糕的是，因爲它不是反鋸齒，並期待更多的像素化。 – 2011-05-14 14:06:20

對於人類來說 - 是的。但對於Tesseract Adobe版本是最好的。 – clumpter 2011-05-14 15:47:10

爲什麼要將雙層圖像轉換爲8位灰色（-depth 8）？如果您只需要將格式從PDF更改爲TIFF而不更改圖像數據，請將位深度保留爲原始值。 – BitBank 2011-05-14 16:26:32

我的建議是：使用Ghostscript命令行。因爲ImageMagick無論如何都使用Ghostscript，所以在後臺（技術IM術語是這樣的：Ghostscript是一些轉換的「代表」，例如PDF-> TIFF）。

下面是應該多頁PDF文件的信紙大小的頁面工作做好的命令行：

gswin32c.exe^
    -o page_%03d.tif^
    -sDEVICE=tiffg4^
    -r720x720^
    -g6120x7920^
    input.pdf

的-g...參數控制使用「設備點」絕對寬+高輸出頁面...（並且在720dpi時6120x7920這個字母大小）。

這些TIFF頁...

...將是黑+白，
...將有一個分辨率720DPI，
...將是G4壓縮和
...會比從IM命令行的非壓縮300dpi的要小得多

的-depth 8你的IM參數不適合給好的結果來自p.o.v.之後的OCR，因爲它會在字母周圍產生灰色的陰影，這對此沒有幫助。

您的OCR結果現在應該比以前好多了。

如果您的OCR無法處理TIFF G4格式（我懷疑），那麼您可以藉助Ghostscript生成其他TIFF子格式。例如：

gswin32c.exe^
    -o page_%03d.tif^
    -sDEVICE=tiffgray^
    -r720x720^
    -g6120x7920^
    -sCompression=lzw^
    input.pdf

。

gswin32c.exe^
    -o page_%03d.tif^
    -sDEVICE=tiff24nc^
    -r720x720^
    -g6120x7920^
    -sCompression=lzw^
    input.pdf

tiffgray設備創建8位灰度輸出。 tiff24nc設備創建8位RGB顏色輸出。兩種類型的TIFF當然都會大於tiffg4輸出。

來源

2011-05-15 18:36:25

非常感謝，看起來太棒了！最後一個問題：你知道從多頁pdf生成一個多頁TIFF文件嗎？ – clumpter 2011-05-15 20:57:28

@dumpter：是的。 :-) – 2011-05-16 05:14:08

@dumpter：對於多頁TIFF，只需使用'-o output.tif'。如果輸出中沒有'％03d'名稱部分，將不會有單頁TIFF .... – 2011-05-16 05:15:49

歐洲紙張幅面A4和Unix/Linux的使用：

gs -o output.tif -sDEVICE=tiffg4 -r720x720 -sPAPERSIZE=a4 input.pdf

來源

2017-08-01 07:29:17 sneaky

PDF to tiff ImageMagick問題

回答

相關問題