2011-05-14 73 views
4

我正在嘗試將pdf轉換爲tiff圖像以用於以下OCR。我使用「-density 300x300 -depth 8」作爲參數。 第一個問題是,從500 KB的pdf文件我得到72 MB的tiff文件。 第二個問題是產生的圖像質量差導致OCR失敗。 在這裏你可以自己看。 Adob​​e Acrobat Reader軟件生成(印製)的TIFF圖像: enter image description herePDF to tiff ImageMagick問題

ImageMaggick TIFF圖像: enter image description here

的差別是很大的。 我怎樣才能像使用ImageMaggick生成的圖像一樣好?其他格式也不錯,不過其他的格式也不錯。

UPD:我找到'antialias'選項。現在它好多了。 但仍然OCR結果不如Adobe版本那麼準確。

+0

其實Adobe的一個更糟糕的是,因爲它不是反鋸齒,並期待更多的像素化。 – 2011-05-14 14:06:20

+0

對於人類來說 - 是的。 但對於Tesseract Adob​​e版本是最好的。 – clumpter 2011-05-14 15:47:10

+0

爲什麼要將雙層圖像轉換爲8位灰色(-depth 8)?如果您只需要將格式從PDF更改爲TIFF而不更改圖像數據,請將位深度保留爲原始值。 – BitBank 2011-05-14 16:26:32

回答

5

我的建議是:使用Ghostscript命令行。因爲ImageMagick無論如何都使用Ghostscript,所以在後臺(技術IM術語是這樣的:Ghostscript是一些轉換的「代表」,例如PDF-> TIFF)。

下面是應該多頁PDF文件的信紙大小的頁面工作做好的命令行:

gswin32c.exe^
    -o page_%03d.tif^
    -sDEVICE=tiffg4^
    -r720x720^
    -g6120x7920^
    input.pdf 

-g...參數控制使用「設備點」絕對寬+高輸出頁面...(並且在720dpi時6120x7920這個字母大小)。

這些TIFF頁...

  1. ...將是黑+白,
  2. ...將有一個分辨率720DPI,
  3. ...將是G4壓縮和
  4. ...會比從IM命令行的非壓縮300dpi的要小得多

-depth 8你的IM參數不適合給好的結果來自p.o.v.之後的OCR,因爲它會在字母周圍產生灰色的陰影,這對此沒有幫助。

您的OCR結果現在應該比以前好多了。

如果您的OCR無法處理TIFF G4格式(我懷疑),那麼您可以藉助Ghostscript生成其他TIFF子格式。例如:

gswin32c.exe^
    -o page_%03d.tif^
    -sDEVICE=tiffgray^
    -r720x720^
    -g6120x7920^
    -sCompression=lzw^
    input.pdf 

gswin32c.exe^
    -o page_%03d.tif^
    -sDEVICE=tiff24nc^
    -r720x720^
    -g6120x7920^
    -sCompression=lzw^
    input.pdf 

tiffgray設備創建8位灰度輸出。 tiff24nc設備創建8位RGB顏色輸出。兩種類型的TIFF當然都會大於tiffg4輸出。

+0

非常感謝,看起來太棒了!最後一個問題:你知道從多頁pdf生成一個多頁TIFF文件嗎? – clumpter 2011-05-15 20:57:28

+0

@dumpter:是的。 :-) – 2011-05-16 05:14:08

+0

@dumpter:對於多頁TIFF,只需使用'-o output.tif'。如果輸出中沒有'%03d'名稱部分,將不會有單頁TIFF .... – 2011-05-16 05:15:49

0

歐洲紙張幅面A4和Unix/Linux的使用:

gs -o output.tif -sDEVICE=tiffg4 -r720x720 -sPAPERSIZE=a4 input.pdf