2011-06-11 40 views
2

我需要驗證pdf報告是基於文本的(而不是基於位圖;但它可能包含一些圖像)。我不需要提取文本,只是爲了驗證它是基於文本的。如何使用ITextSharp驗證pdf是基於文本的?

有沒有辦法如何使用ITextSharp庫執行這樣的驗證?

由於提前,

斯特凡

+0

「基於文本」是什麼意思?它至少有一個可提取的字符? – 2011-06-11 17:58:47

+1

是的,我不確定是否有必要劃定這兩者,特別是位圖文本和「真實」文本可以共存。如果PDF包含一頁文本後跟一個完整頁面的圖像,那麼這會算作什麼呢?如果圖片實際上是一張照片呢? – duskwuff 2011-06-11 18:04:43

+0

我需要接受測試的代碼。我知道pdf應該包含哪些文本/數據。我們的任務是確保從數據生成的pdf報告是「基於文本的」 - 這意味着它不僅僅是pdf內的位圖,它實際上包含了格式化的文本。 – stefando 2011-06-12 18:31:48

回答

1

你可以看看文字繪圖命令很輕鬆了。你所做的最少的工作是試圖提取文本,看看有沒有什麼東西。理想情況下,你會知道它應該包含的一些文本並搜索它。對於這種測試,單個句子或短語就足夠了。

現在用iText進行文本提取是相當平凡的。很多例子都圍繞着SO和網絡而存在。

+0

我知道這有點舊,但是有沒有機會發佈一個小代碼示例?我對iTextSharp完全陌生,甚至不知道開始使用哪個對象。我一定會對答案進行投票。 – flipdoubt 2012-01-09 15:16:32

相關問題