如何從pdf頁面使用Zend_Pdf提取文本

任何人都可以幫助從PDF頁面中提取文本？如何從pdf頁面使用Zend_Pdf提取文本

<?php 
$pdf = Zend_Pdf::load('example.pdf'); 
$page = $pdf->page[0];

我會假設頁面方法會存在，但我找不到任何東西讓我提取內容。

例如：$ page-> getContents（）; $ PAGE->的toString（）; $ PAGE-> extractText（）;

...幫助!!!!這真讓我抓狂！

http://stackoverflow.com/questions/5496191/php-pdf-2-text-problem希望這會有所幫助 – Varshaan 2016-10-28 15:07:37

從the manual它似乎不支持此功能。此外，新文本使用drawText() function編寫，它似乎寫入圖像，而不是簡單的「可解碼」文本。

2010-03-22 16:03:38 Andy

它確實寫了'文字'而不是圖像，但你肯定是正確的，在此刻的部分PDF不能被提取或修改。 – 2010-03-22 22:11:32

我同意安迪，這似乎並不支持。作爲替代，請看Shaun Farrell's solution to extracting text from a PDF for use with Zend_Search_Lucene。他使用XPDF，這可能也會滿足您的需求。

2010-03-22 21:02:47

xpdf將從PDF中提取文本，只要您的PDF實際上包含文本（與掃描圖像相對）。另一方面，您也可以嘗試以下內容：http://www.webcheatsheet.com/php/reading_clean_text_from_pdf.php。 – wimvds 2010-03-26 12:28:11

上面的鏈接已經死了，雖然我發現有幾個頁面鏈接到它，但我找不到其他的源代碼。我能夠使用pdftotext來提取我需要的信息，以防別人跑過這篇文章。 – 2012-05-09 14:36:53

回答