作爲圖像和圖形的文本之間的區別

這個問題似乎很奇怪，但我需要問一下，因爲我將文本作爲圖像和圖形進行比較時，目睹了一個非常有趣的輸出。作爲圖像和圖形的文本之間的區別

理想情況下，我正在識別一個工具，或比較兩個pdf的算法，生成輸出將突出顯示它們之間的差異。

在pdf中有可能性，將文本作爲圖像格式（論文中的遺留文本，轉換爲pdf）。

我們正在進行這些遺留PDF的遷移，最後我們正在比較遺留和轉換的pdf輸出。

我正在評估幾個工具，如Adobe dc pro，i-net pdfc和power pdf等，用於比較兩個pdf。

在評估過程中，我能夠看到圖形圖像在pdf的任一側進行比較（不準確）。在像文字一樣的圖像被完全忽略的情況下，所有工具都會得到一致的結果。

但是我更關注文字作爲圖像，因爲我們處理的是更多的傳統文字pdf。

下面，附上圖形圖像比較結果，它可以捕獲圖像之間的差異。

但是，當我比較文本圖像，差異不是在工具高亮顯示。

我從這個明白了什麼，文本不作爲相比，圖像圖形和工具完全無視比較。我想澄清一下，我的假設是否正確。

其次，我想知道如何比較PDF中的文本圖像以產生差異？

只有你使用的工具的作者可以回答你的第一個問題。第二個問題由OCR回答...你必須檢測文本（通過它的典型屬性）OCR它在兩個圖像和比較字符串，格式等... – Spektre

我工作的公司，是我網PDFC的作家，所以我會回答你的第一個問題還有：

你的假設是正確的。 i-net PDFC能夠比較圖像和形狀，但它無法檢測到某些內容是否完全改變了它的含義，例如，用於繪製字母的線條形狀，或者用於繪製必須被識別爲文本的圖像。將ASCII藝術識別爲圖像也不會出於同樣的原因。儘管它們的視覺外觀相似，但這些情況總會被檢測爲差異。

關於第二個問題：對一個或兩個文檔使用OCR轉換工具是解決此問題的常見解決方案。由於轉換文件中的字體樣式和換行不同，所以比較頁面的簡單圖像比較不太可能奏效。請注意，大多數OCR應用程序將使用渲染的頁面圖像進行識別。即使PDF文件中沒有圖像，這可能會導致識別結果不正確。

i-net軟件意識到這個普遍問題，並且OCR模塊目前正在開發中。它將提供一個選項，僅將識別應用於PDF文件中的圖像。

2017-09-20 06:34:15 Karsten

它有助於從你注意到，我正在識別不同的工具爲ocr內容..如果我網pdfc提供了這個將來肯定會提供完整的PDF比較解決方案..現在我們需要去不同的工具進行不同的內容比較.. –

回答