2011-05-04 103 views
3

我需要從該雜誌中提取「文章」,其中既有文字也有圖像。圖像內容必須單獨放置,文本提取(儘可能)並分開放置。分析pdf文件的格式並提取文本和圖像

我該如何去做這件事?是否有商業服務/ API已經這樣做?程序/服務的輸入只是文件。

例如輸入的:http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf

(實際的文件將是一個正常的pdf文件,而不是一個seured一個)

回答

0

如果您可以買得起商業選項,Amyuni PDF Creator將允許您枚舉PDF文件(文本,圖像等)中的所有組件,您將能夠將它們作爲獨立對象提取,並且您可以創建新的PDF文件他們。

+0

免責聲明:我爲Amyuni Technologies工作。 – yms 2011-05-04 21:10:29

+0

這是有趣的知道 - 我們可以打破PDF成其元素 - 例如:一個頁面可能有兩篇文章和兩個相關圖像(通常,他們會有更多) – siliconpi 2011-05-05 02:04:56

+0

你確定我可以使用你的工具來提取? – siliconpi 2011-05-05 02:18:26

1

Docotic.Pdf library可以爲您從PDF文件中提取圖像和文本。

這裏有幾個樣品進行你的任務:

提取的圖像可以保存爲JPEG和TIFF格式。您可以從每個頁面或整個文檔中提取文本。你可以用他們的座標提取文本塊。

聲明:我爲圖書館供應商Bit Miracle工作。

相關問題