2013-02-18 91 views
0

我正在將PDF文件轉換爲文本(HTML),轉換成功但失去了所有轉換。有什麼方法可以保持正確的格式,因爲它最初是在PDF文件中? 我得到了從pdf到文本的幫助herePDF格式轉換爲HTML格式正確

+0

您的[pdf2text.php](http://webcheatsheet.com/php/reading_clean_text_from_pdf.php)僅用於嘗試*從PHP閱讀PDF文件中的「乾淨」文本,*即不帶任何格式的文本信息(甚至忽略內容流中的字體編碼)。因此,如果您想真正以其格式提取PDF內容,則應首先研究[PDF規範ISO 32000-1:2008](http://www.adobe.com/content/dam/Adobe/en/devnet/) acrobat/pdfs/PDF32000_2008.pdf),然後準備投入一個月的工作到該項目... – mkl 2013-02-18 15:58:27

回答

0

基本上PDF是一個使用固定格式的文檔,其中html一般使用流體格式。您將無法獲得與PDF完全相同的HTML文檔。

此外,一些PDF功能甚至不支持HTML。

+0

然後有什麼辦法來創建我從我的代碼獲得的生成輸出樣式? – Baig 2013-02-18 15:28:33

+0

理論上是的,如果您花時間瞭解樣式是如何存儲在PDF中以及它們如何轉換爲CSS的。我相信adobe會以PDF文件格式發佈文檔。 – datasage 2013-02-18 15:30:52

+0

你會請分享任何有用的鏈接? – Baig 2013-02-18 15:42:39