檢查PDF是否可搜索

我寫了一個bash腳本，從掃描的PDF文件中提取純文本。我有很多PDF文件，但有些是掃描的，有些則不是。所以現在我的主要目標是通過檢查PDF是否已經可以搜索來改進我的腳本，所以不需要OCR提取。檢查PDF是否可搜索

我已經試過：

pdftext -nopgbrk pdf_file.pdf wordlist

存儲可能OCR'ed文字wordlist，所以後來我可以檢查它是否是空的，並找出是否是一個可搜索的PDF或沒有。

我也試過pdffonts pdf_file.pdf來檢查該PDF中是否有字體，因此是否有文字。

這兩種方式工作很好，但在某些情況下失敗。

例如，我需要OCR的一些PDF需要數字簽名，而這些簽名始終爲PDF添加文本圖層。所以，當我運行這兩個命令中的任何一個時，它將輸出簽名的文本或它使用的字體。就好像它是因爲簽名而發現了純文本一樣。它可能只是一個帶有數字簽名的掃描PDF，但會被檢測爲純文本PDF。

數碼引援總是添加文字這種方式（使用Helvetica字體）：名稱

日期：日期CEST

公司：公司名稱

通過簽名

所以：

pdftext -nopgbrk pdf_file.pdf wordlist | grep -v -E 'Signed|Date|Company'

我可以設法刪除這些行，所以如果它真的是掃描的PDF，輸出將爲空。

它工作的一些PDF的，直到我注意到有一些其他格式的簽名，所以我覺得這是相當多的解決方法，而不是一個很好的解決方案。

有什麼方法可以檢查PDF是否完全可搜索？我只需要一種方法來提取PDF文本，但省略了數字簽名。另外grep -v將總是取決於我們的數字簽名的格式，如果它改變，那麼它會搞砸我的腳本。

謝謝。

來源

2017-07-26 Miquel Perez

你可能是對的。我發佈了這個與我的OCR腳本相關的問題，這個腳本與編程相關，但是當你提到我自己的問題可能是無關緊要的時候，所以Unix＆Linux堆棧交換可能是一個更好的地方發佈它。無論如何，如果有人用腳本或算法來解決我的問題，那麼它也可能與編程有關。反正很抱歉。 –

不幸的是，如果沒有對文件進行更多的涉及分析，這將遠遠超出bash腳本的範圍和規模，那麼真的不是一種簡單的方法來以「非hacky」的方式來做到這一點。

當pdftotext輸出數字簽名的文本時，該文本不是來自數字簽名本身。這是作爲對象存儲在PDF中的，其中元數據pdftotext將被忽略。相反，pdftotext拿起來就是：文本也被添加到文件中。

下面是Adobe's sample signed PDF document的一個示例。首先，數字簽名的元數據：

在此可以被插入到文檔中的文本：

技術上講，你可以有一個沒有其他，有通常伴隨數字簽名的文本沒有建立的格式。因此，您被卡住了：

忽略具有grep的特定文本，因爲您現在正在執行此操作，這可能是不可靠的。
對所有文件運行OCR，然後檢查文本在OCR之前/之後是否存在差異，但是這首先破壞了檢查的整體目的。

來源

2017-07-26 17:10:02

要添加到最後一個項目符號點，我們提供的一些OCR工具包括一個選項，以「在帶有可搜索文本層的PDF上跳過OCR」。因此，您仍然可以在整套設備上運行OCR，但只有基於圖像的PDF纔會被OCR。結果將是您的現有文件，其文本通過未經處理的+圖像PDF現在通過OCR文本傳遞。 –

@IlyaEvdokimov但是，在這種情況下，處理器是否會忽略仍需要OCR的文件，但碰巧有可搜索的文本層，其中只包含有關數字簽名的信息？從我在OP的困境中瞭解的情況來看，這是問題的關鍵。似乎需要一些更多的參與分析，將文本與數字簽名中的信息進行比較，不管PDF是否具有圖像，並且對是否在該特定文檔上運行OCR都進行了有根據的猜測。 –

檢查PDF是否可搜索

回答

相關問題