如何從Objective-C的PDF頁面獲取文本?如何從PDF頁面獲取文本?
2
A
回答
2
這是用於iOS或OS X的嗎?如果對於OS X,您可以簡單地創建一個Automator工作流程來提取文本,並從您的應用程序調用該工作流程。 Automator具有PDF操作「Extract PDF Text」就是爲了這個目的。 Automator framework允許從你的應用程序調用automator動作。還有一些示例代碼可以在http://rogueamoeba.com/utm/2005/06/03/找到(請注意,實際代碼已經更新以使用Automator框架)。
4
首先 - 放棄任何用於解析PDF的「快速&髒」解決方案 - 它會失敗。我的同事花了很多時間在iOS上正確地解決這個問題。他的前3名(質量,降序)選項:
- muPDF(http://www.mupdf.com/)偉大的圖書館 - 它會做提取罰款。它在GPL下獲得許可,但這對於我們的專有應用來說是一個阻礙。
- 基於CGPDFScanner的自制解決方案。你可以找到如何做到這一點的簡短說明here。這種方法的主要問題是SDK本身 - 蘋果公司的PDF API非常嚴格(並且故意懷疑)是有限的。例如,您必須在2D空間中放置提取的文本塊,因爲PDF不能保證繪圖的順序與文本流相匹配,並且iOS SDK在這裏沒有什麼幫助。
- Poppler(http://poppler.freedesktop.org/)是可以的,但對於文本提取,它大致等同於第二個選項(具有大量額外的依賴關係)。
可以有更多的選項與Mac OS X,但我不知道他們。
+1
muPDF僅用於查看。 – Jamil 2016-03-21 10:52:40
相關問題
- 1. jQuery:如何從頁面獲取文本?
- 2. 如何從pdf頁面使用Zend_Pdf提取文本
- 3. 如何從html頁面獲得pdf
- 4. 從SWF Offer中獲取PDF頁面Avis
- 5. 從html頁面獲取文本shell
- 6. 如何從html頁面提取文本?
- 7. 從PDF文件中獲取純文本
- 8. 如何使用CAM :: PDF在PDF頁面中獲取文本字符串的文本方向?
- 9. 如何獲取pdf文檔中的頁面座標onclick
- 10. PDF如何獲取文本的高度
- 11. 如何從iOS上的pdf文件中提取給定頁面?
- 12. 蟒蛇 - 從PDF頁面明智提取文本列出
- 13. 如何從pdf文件獲取highligted word?
- 14. iphone從pdf頁面創建PDF文件
- 15. 從PDF頁面獲取文本時出現iTextSharp異常「堆棧爲空」
- 16. 如何使用selenium IDE和python獲取pdf頁面(鏈接)中的所有頁面文本
- 17. 如何從此頁面獲取鏈接?
- 18. 如何從html頁面獲取xPath(WebView)
- 19. CPropertySheet:如何從OnDrawItem獲取子頁面
- 20. 如何從App獲取WebPartManager頁面?
- 21. 如何從Facebook獲取頁面ID Iframe
- 22. 如何從XUL獲取內容頁面?
- 23. 如何從PAMIE獲取頁面內容?
- 24. 如何從pdf中獲取某種顏色的文本c#
- 25. 如何從PDF獲取文本的字體名稱?
- 26. 如何從Swift中的PDF中獲取所有文本?
- 27. 如何從PDF獲取位置數據到文本
- 28. 如何使用PDFBox API從PDF獲取文本的方向
- 29. 獲取包含圖像的PDF頁面
- 30. 使用PHP獲取單個PDF頁面
重複的問題。請參閱http://stackoverflow.com/questions/3287635/how-to-parse-pdf-in-objective-c-for-ipad – Avi 2012-02-24 08:36:17
那麼答案在哪裏呢? – demon9733 2012-02-24 08:38:15
@Avram這個問題與從PDF提取文本無關 – hoha 2012-02-24 08:39:27