3

這個問題似乎很奇怪,但我需要問一下,因爲我將文本作爲圖像和圖形進行比較時,目睹了一個非常有趣的輸出。作爲圖像和圖形的文本之間的區別

理想情況下,我正在識別一個工具,或比較兩個pdf的算法,生成輸出將突出顯示它們之間的差異。

在pdf中有可能性,將文本作爲圖像格式(論文中的遺留文本,轉換爲pdf)。

我們正在進行這些遺留PDF的遷移,最後我們正在比較遺留和轉換的pdf輸出。

我正在評估幾個工具,如Adobe dc pro,i-net pdfc和power pdf等,用於比較兩個pdf。

在評估過程中,我能夠看到圖形圖像在pdf的任一側進行比較(不準確)。在像文字一樣的圖像被完全忽略的情況下,所有工具都會得到一致的結果。

但是我更關注文字作爲圖像,因爲我們處理的是更多的傳統文字pdf。

下面,附上圖形圖像比較結果,它可以捕獲圖像之間的差異。

graphic image

但是,當我比較文本圖像,差異不是在工具高亮顯示。

text image

我從這個明白了什麼,文本不作爲相比,圖像圖形和工具完全無視比較。我想澄清一下,我的假設是否正確。

其次,我想知道如何比較PDF中的文本圖像以產生差異?

+1

只有你使用的工具的作者可以回答你的第一個問題。第二個問題由OCR回答...你必須檢測文本(通過它的典型屬性)OCR它在兩個圖像和比較字符串,格式等... – Spektre

回答

4

我工作的公司,是我網PDFC的作家,所以我會回答你的第一個問題還有:

你的假設是正確的。 i-net PDFC能夠比較圖像和形狀,但它無法檢測到某些內容是否完全改變了它的含義,例如,用於繪製字母的線條形狀,或者用於繪製必須被識別爲文本的圖像。將ASCII藝術識別爲圖像也不會出於同樣的原因。儘管它們的視覺外觀相似,但這些情況總會被檢測爲差異。

關於第二個問題:對一個或兩個文檔使用OCR轉換工具是解決此問題的常見解決方案。由於轉換文件中的字體樣式和換行不同,所以比較頁面的簡單圖像比較不太可能奏效。 請注意,大多數OCR應用程序將使用渲染的頁面圖像進行識別。即使PDF文件中沒有圖像,這可能會導致識別結果不正確。

i-net軟件意識到這個普遍問題,並且OCR模塊目前正在開發中。它將提供一個選項,僅將識別應用於PDF文件中的圖像。

+0

它有助於從你注意到,我正在識別不同的工具爲ocr內容..如果我網pdfc提供了這個將來肯定會提供完整的PDF比較解決方案..現在我們需要去不同的工具進行不同的內容比較.. –