我試圖使用Perl從PDF文件中提取文本/圖像/表格。使用Perl從PDF中提取圖像/文本
我嘗試使用CAM::PDF
這是不是在文本中提取,但作爲一些其他格式。
是否有一種方法可以使用Perl模塊從PDF中提取文本/圖像/表格?
我試圖使用Perl從PDF文件中提取文本/圖像/表格。使用Perl從PDF中提取圖像/文本
我嘗試使用CAM::PDF
這是不是在文本中提取,但作爲一些其他格式。
是否有一種方法可以使用Perl模塊從PDF中提取文本/圖像/表格?
使用CAM::PDF。它有一些方法,可以幫助你提取圖像或其他元素:
$doc->getProperty($pagenum, $propertyname)
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node).
我用CAM :: PDF -J Atwal。但我沒有得到正確的輸出標準輸出。輸出是這樣的: ↓◄↑◄§◄ù↨←▬§§ 0 X♥6 \䎁♥,3 ¶◄¶§◄§∟◄§▬→ 0 X♥6 \!䎁♥6 HULDO♥♠ !§!§►¶↑¶!►!!!►!▬ ' 0 X♥6 \䎁♥8 VHU指令 DGPLQ ' HQLDO►RI►6 HUYLFH♥♂「 ,R 6♀♥5 HVXO $ YDLODELOLW \ §!♥PLQXWHV♥¶♥VHFRQG ¶§¶♥PLOOLVHFRQGV ¶ 5 ħ由於F R年小時】U Hģ♥ž升寬ķl問♥¶♥P l問X W H ♥ ([H˚FX W L年小時♥6 X P P d U \♥5 H S RüW¯¯↔♥ $ 5 3乙▬▬¶↑B',R 6 –
希望你不嘗試打印在stdout圖像;)。嘗試將圖像內容保存到文件中,然後在圖像瀏覽器中打開該文件。 –
這不是圖像而是文字。即使那樣它也是這樣打印的。 –
@ priya..i試過這個模塊,其做工精細的PDF文本提取..
use strict;
use warnings;
use PDF::OCR::Thorough;
my $filename = "pdf.pdf";
my $pdf = PDF::OCR::Thorough->new($filename);
my $text = $pdf->get_text();
print "$text";
是否有一個例子PDF您可以鏈接到的在線文件? – Borodin
來自Poppler的'pdftohtml'。沒有必要失去理智。 –