2012-02-29 192 views

回答

0

您可以使用Windows中內置的IFilter的能力,這裏的一些示例代碼的文章:

Using-IFilter-in-C

問題與PDF文件的是,即使你能夠提取的明文PDF的可讀形式(這是不是任何延伸保證),文本將完全無格式。在很多情況下,即使是簡單的換行符也會丟失。

+0

richard它工作正常。如果我們正在將PDF轉換爲文本。正如你告訴我,它失去了風格,格式,圖像,圖形等,所以你有任何想法,我們如何在轉換中獲得所有這些東西,並感謝您的帖子。 – andy 2012-02-29 07:32:21

+1

無法在沒有寫入的情況下恢復格式化您自己的應用程序直接解析PDF格式。這將是一項難以置信的艱鉅任務 - 開發時間長達數年。 即使這樣,PDF也是以不會轉換回像Word這樣的基於流的文檔(其中文本/圖形包裝行,流向下一頁等)的方式構建的。 PDF文件內部不包含任何文本流/包裝信息,它們傾向於圍繞頁面上的小塊文本/圖形和它們的*絕對*位置組織。 爲此,我推薦第三方解決方案。 – richardtallent 2012-02-29 17:57:42

相關問題