2016-03-20 80 views
0

我試圖將pdf轉換爲文本文件。 我使用該命令來執行轉換:Ghostscript textwriter保留空行

gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=output.txt input.pdf 

Ghostscript的版本是9.07。

我得到了PDF中顯示的所有文本。如果可能的話,我想保留文本文件中的空白行。

感謝

+0

通常,PDF *有*無空行。即使是「線條」的概念也相當廣泛 - 規範允許在單行上發佈一系列文本,但它也允許任何文本的「任意」x和y位置。爲了這樣一個目標,你必須比較每條'線'的y位置,並決定這個距離是否足夠分開以計爲「空白」。 – usr2564301

回答

1

你應該升級的Ghostscript的最新版本是9.18和9.19很快將發佈。每個臨時版本都包含對txtwrite設備的修復。

儘管PDF文件不包含空白行,但txtwrite設備確實有一種模式,它將嘗試通過在文本文件中使用空格和空行來產生原始佈局的合理表示。

這是txtwrite當前版本中的默認操作,所以您應該已經獲得此操作,除非您選擇了不同的TextFormat。

此模式具有很強的啓發性,容易被愚弄,不能很好地處理上標,下標,重要的點大小變化以及可能使佈局難以重現的其他屬性。顯然,沒有看到你的輸入文件,我沒有什麼可以告訴你的。