2011-05-18 57 views
0

我的CGPDFScanner實例正在掃描測試pdf文件。CGPDFScanner,Identity-H和解壓縮

在給定時間,當前字體字典有EncodingIdentity-HFontDescriptor字典,其中鍵爲FontFile2。此密鑰恰好適用於流值,其字典的密鑰爲Filter。此密鑰的值是FlateDecode

我不確定如何解釋和使用此(例如,將下一個Tj塊中的文本解壓縮爲Unicode)。例如,我只是zlib-解壓縮下一個Tj塊中的字節嗎? (這裏沒有ToUnicode的鑰匙。)

我以爲所有的解壓都是由CGPDFScanner實例進行的。

回答

0

如果字體使用Identity-H編碼,並且它沒有ToUnicode條目,則無法提取文本。 Tj運算符的參數是一系列字形索引,並且在沒有ToUnicode條目的情況下,該序列不能轉換爲文本。

FontFile2條目存儲實際的字體文件,從PDF文件中提取文本時沒有任何作用。

+0

我明白了。蘋果如何管理它?也許他們不......嗯。 – SK9 2011-05-18 11:08:14

+0

我不認爲他們以任何方式管理它。你有沒有試圖從這樣的文件複製文本?在這種情況下,Adobe Acrobat複製並粘貼空白字符。 – iPDFdev 2011-05-18 11:47:35

+0

我可以正確複製並粘貼(不是空白)。嗯。 – SK9 2011-05-18 12:14:03