這個問題似乎很奇怪,但我需要問一下,因爲我將文本作爲圖像和圖形進行比較時,目睹了一個非常有趣的輸出。作爲圖像和圖形的文本之間的區別
理想情況下,我正在識別一個工具,或比較兩個pdf的算法,生成輸出將突出顯示它們之間的差異。
在pdf中有可能性,將文本作爲圖像格式(論文中的遺留文本,轉換爲pdf)。
我們正在進行這些遺留PDF的遷移,最後我們正在比較遺留和轉換的pdf輸出。
我正在評估幾個工具,如Adobe dc pro,i-net pdfc和power pdf等,用於比較兩個pdf。
在評估過程中,我能夠看到圖形圖像在pdf的任一側進行比較(不準確)。在像文字一樣的圖像被完全忽略的情況下,所有工具都會得到一致的結果。
但是我更關注文字作爲圖像,因爲我們處理的是更多的傳統文字pdf。
下面,附上圖形圖像比較結果,它可以捕獲圖像之間的差異。
但是,當我比較文本圖像,差異不是在工具高亮顯示。
我從這個明白了什麼,文本不作爲相比,圖像圖形和工具完全無視比較。我想澄清一下,我的假設是否正確。
其次,我想知道如何比較PDF中的文本圖像以產生差異?
只有你使用的工具的作者可以回答你的第一個問題。第二個問題由OCR回答...你必須檢測文本(通過它的典型屬性)OCR它在兩個圖像和比較字符串,格式等... – Spektre