2013-07-22 34 views
1

我已經嘗試了幾乎所有可用於Linux的PDF到文本轉換器,但文本的某些部分已損壞/不準確。就像某些字符被其他字符替換一樣,某些字詞在PDF中出現的文字中缺失。對於某些單詞轉換後的文本包含分號等不正確的PDF到文本轉換

我也嘗試aspell,以便我可以更正單詞,但aspell保持沉默的一些單詞。

注意:pdf包含瑞典語言文本。

那麼,有沒有解決方案來解決PDF到文本轉換的這種不準確?

回答

1

不,我認爲沒有適用於所有pdf文件的工作解決方案,因爲所顯示的視覺文本下方的實際文本可以以各種風格存儲。

當LaTeX生成pdf時,它取決於幾個配置選項,以及如何嵌入一些非ascii字符。有時我得到了:o而不是ö,有時候是o:,有時候這個字符是直接嵌入的。儘管如此,其中顯示ö的這些變體中的每一個都是如此。

如果您將文本複製並粘貼到您最喜愛的PDF閱讀器中,或嘗試搜索損壞的單詞,您可能會看到相同的效果。

爲了解決這些問題,可以使用ocr軟件 - 這些工具的識別都有缺點。