不正確的PDF到文本轉換

我已經嘗試了幾乎所有可用於Linux的PDF到文本轉換器，但文本的某些部分已損壞/不準確。就像某些字符被其他字符替換一樣，某些字詞在PDF中出現的文字中缺失。對於某些單詞轉換後的文本包含分號等不正確的PDF到文本轉換

我也嘗試aspell，以便我可以更正單詞，但aspell保持沉默的一些單詞。

注意：pdf包含瑞典語言文本。

那麼，有沒有解決方案來解決PDF到文本轉換的這種不準確？

2013-07-22 MA1

不，我認爲沒有適用於所有pdf文件的工作解決方案，因爲所顯示的視覺文本下方的實際文本可以以各種風格存儲。

當LaTeX生成pdf時，它取決於幾個配置選項，以及如何嵌入一些非ascii字符。有時我得到了:o而不是ö，有時候是o:，有時候這個字符是直接嵌入的。儘管如此，其中顯示爲ö的這些變體中的每一個都是如此。

如果您將文本複製並粘貼到您最喜愛的PDF閱讀器中，或嘗試搜索損壞的單詞，您可能會看到相同的效果。

爲了解決這些問題，可以使用ocr軟件 - 這些工具的識別都有缺點。

2013-07-22 11:53:39 urzeit

回答