我們探討了很多API,如tika,Pdfbox和itextpdf,以從pdf文件中提取頁碼,但我們無法做到這一點。在itextpdf中,我們得到了PdfPageLabels.getPageLabels(reader),但是這種方法的行爲並不統一。如何從PDF文件中提取頁碼
0
A
回答
3
您找不到任何能夠從PDF中提取頁碼的軟件的原因很簡單:PDF中不存在頁碼的概念。
允許我預測你的迴應。
*「等一下!」你說,「當我用Adobe Reader打開PDF時,我可以清楚地看到文檔中的頁碼!」
嗯,是的,你可以看到你的眼睛,你的人情報,頁碼,但是到了機這個數字只是一個畫布上繪製一些文字。消耗文檔的機器不知道頁面上的所有字形和線條以及形狀。因此,軟件無法爲您提供您作爲人類看到的頁碼。一臺機器不知道去哪裏看!
如果您對PDF有所瞭解,我可以預測您的下一個回覆。
「等一下!」你說,「標籤PDF怎麼樣?不標記PDF意味着文檔的語義與表示一起存儲?」
嗯,是的,當一個PDF被標記了一段文本知道它是一個標題,或一個段落,或一個列表的一部分,......但標記PDF是用來定義真實內容的結構。然而,頁碼不是真實內容的一部分。它們被標記爲文物以及頁面上的頁眉,頁腳和其他項目,這些內容不被視爲真實內容。沒有辦法區分頁碼。
「那麼這些頁面標籤是關於什麼的?」你問。
那麼,頁面標籤是可選。它們出現在一些構思良好的PDF文件中,但它們在大部分PDF中都不存在,您可以在野外找到它們。
這是漫長的答案。簡短的回答很簡單:你正在尋求一些不可能的東西(一般來說,不僅僅是iText,Tika,PdfBox或者你可能試過的任何其他工具)。
相關問題
- 1. 如何從iOS上的pdf文件中提取給定頁面?
- 2. 從PDF文件中提取文本
- 3. 從pdf文件中提取文本
- 4. 從PDF文件中提取文本
- 5. 如何從Python中的PDF文件中提取文本?
- 6. 從PDF中提取文本
- 7. 從PDF文件中提取標題?
- 8. 從pdf文件中提取圖片
- 9. 如何從pdf文件中提取附件?
- 10. 如何提取SVG從網頁文件
- 11. 使用PHP從PDF文件中提取頁面
- 12. 使用iText從pdf文件中提取一個頁面
- 13. 如何從PDF頁面獲取文本?
- 14. 如何從pdf頁面使用Zend_Pdf提取文本
- 15. 如何從.pdf文件中使用c提取標題#
- 16. 如何從PDF文件中提取圖像?
- 17. 如何使用itext7從PDF中提取附加文件
- 18. 如何從PDF文件中提取圖像?
- 19. 如何使用JPedal從pdf文件中提取數據?
- 20. 使用PHP從.pdf中提取頁面
- 21. 從PDF文件提取圖層爲HTML
- 22. 從PDF文檔中提取文本 - C#
- 23. 如何從文本中查找/提取頁碼?
- 24. 如何從PDF文件中提取數據使用iText的文件
- 25. 如何從PDF文檔中提取文本
- 26. nutch只提取pdf文件
- 27. 如何解鎖從iPhone應用程序提取的PDF文件?
- 28. 如何將提取的圖像從pdf寫入文件
- 29. 從Adobe Reader的ActiveX控件獲取PDF文檔的頁碼
- 30. 從pdf文件讀取和刪除頁面的PHP代碼
您至少可以獲得總頁數 - http://stackoverflow.com/a/17845046/1406510 – nanosoft 2016-05-31 11:18:08