2010-03-22 118 views
2

任何人都可以幫助從PDF頁面中提取文本?如何從pdf頁面使用Zend_Pdf提取文本

<?php 
$pdf = Zend_Pdf::load('example.pdf'); 
$page = $pdf->page[0]; 

我會假設頁面方法會存在,但我找不到任何東西讓我提取內容。

例如:$ page-> getContents(); $ PAGE->的toString(); $ PAGE-> extractText();

...幫助!!!!這真讓我抓狂!

+0

http://stackoverflow.com/questions/5496191/php-pdf-2-text-problem希望這會有所幫助 – Varshaan 2016-10-28 15:07:37

回答

0

the manual它似乎不支持此功能。此外,新文本使用drawText() function編寫,它似乎寫入圖像,而不是簡單的「可解碼」文本。

+0

它確實寫了'文字'而不是圖像,但你肯定是正確的,在此刻的部分PDF不能被提取或修改。 – 2010-03-22 22:11:32

2

我同意安迪,這似乎並不支持。作爲替代,請看Shaun Farrell's solution to extracting text from a PDF for use with Zend_Search_Lucene。他使用XPDF,這可能也會滿足您的需求。

+2

xpdf將從PDF中提取文本,只要您的PDF實際上包含文本(與掃描圖像相對)。另一方面,您也可以嘗試以下內容:http://www.webcheatsheet.com/php/reading_clean_text_from_pdf.php。 – wimvds 2010-03-26 12:28:11

+0

上面的鏈接已經死了,雖然我發現有幾個頁面鏈接到它,但我找不到其他的源代碼。我能夠使用pdftotext來提取我需要的信息,以防別人跑過這篇文章。 – 2012-05-09 14:36:53