Python：解析PDF和圖像

我想解析一些包含文本，可能包含或不包含圖像的pdf文件。我想提取文本部分作爲字符串進一步處理，並將圖像保存爲jpeg/png或任何其他圖像格式。什麼應該是最合適的模塊？Python：解析PDF和圖像

pdfminer將得到您的文本。 pdfrw（免責聲明：我是pdfrw的作者）有一些例子可以找到圖像並將它們轉儲到不同的頁面，還有將PDF分割成單獨頁面的示例，因此您可以輕鬆提取所有圖像以分離PDF。如果以無頭模式運行inkscape（例如，從子進程模塊），它可以讀取PDF並輸出不同的格式。

2015-09-20 20:38:43

以下pdfminer文檔說，不支持Python 3。是這樣嗎？ http://www.unixuser.org/~euske/python/pdfminer/ –

我認爲有一個單獨的pdfminer3k版本。另外，PyPDF2還有一些提取功能。 –

回答