2015-09-20 51 views
0

我想解析一些包含文本,可能包含或不包含圖像的pdf文件。我想提取文本部分作爲字符串進一步處理,並將圖像保存爲jpeg/png或任何其他圖像格式。什麼應該是最合適的模塊?Python:解析PDF和圖像

回答

2

pdfminer將得到您的文本。 pdfrw(免責聲明:我是pdfrw的作者)有一些例子可以找到圖像並將它們轉儲到不同的頁面,還有將PDF分割成單獨頁面的示例,因此您可以輕鬆提取所有圖像以分離PDF。如果以無頭模式運行inkscape(例如,從子進程模塊),它可以讀取PDF並輸出不同的格式。

+0

以下pdfminer文檔說,不支持Python 3。是這樣嗎? http://www.unixuser.org/~euske/python/pdfminer/ –

+0

我認爲有一個單獨的pdfminer3k版本。另外,PyPDF2還有一些提取功能。 –