2016-04-27 94 views
2

我試圖使用Perl從PDF文件中提取文本/圖像/表格。使用Perl從PDF中提取圖像/文本

我嘗試使用CAM::PDF這是不是在文本中提取,但作爲一些其他格式。

是否有一種方法可以使用Perl模塊從PDF中提取文本/圖像/表格?

+1

是否有一個例子PDF您可以鏈接到的在線文件? – Borodin

+0

來自Poppler的'pdftohtml'。沒有必要失去理智。 –

回答

0

使用CAM::PDF。它有一些方法,可以幫助你提取圖像或其他元素:

$doc->getProperty($pagenum, $propertyname) 
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node). 
+0

我用CAM :: PDF -J Atwal。但我沒有得到正確的輸出標準輸出。輸出是這樣的: ↓◄↑◄§◄ù↨←▬§§ 0 X♥6 \䎁♥,3 ¶◄¶§◄§∟◄§▬→ 0 X♥6 \!䎁♥6 HULDO♥♠ !§!§►¶↑¶!►!!!►!▬ ' 0 X♥6 \䎁♥8 VHU指令 DGPLQ ' HQLDO►RI►6 HUYLFH♥♂「 ,R 6♀♥5 HVXO $ YDLODELOLW \ §!♥PLQXWHV♥¶♥VHFRQG ¶§¶♥PLOOLVHFRQGV ¶ 5 ħ由於F R年小時】U Hģ♥ž升寬ķl問♥¶♥P l問X W H ♥ ([H˚FX W L年小時♥6 X P P d U \♥5 H S RüW¯¯↔♥ $ 5 3乙▬▬¶↑B',R 6 –

+0

希望你不嘗試打印在stdout圖像;)。嘗試將圖像內容保存到文件中,然後在圖像瀏覽器中打開該文件。 –

+0

這不是圖像而是文字。即使那樣它也是這樣打印的。 –

1

@ priya..i試過這個模塊,其做工精細的PDF文本提取..

use strict; 
use warnings; 
use PDF::OCR::Thorough; 


my $filename = "pdf.pdf"; 

my $pdf = PDF::OCR::Thorough->new($filename); 
my $text = $pdf->get_text(); 
print "$text";