從python中抽取特定標題的PDF數據

我想用python解析PDF文件。我看到了PDFMiner的例子，它無法解釋我的要求。從python中抽取特定標題的PDF數據

例如，如果我想解析簡歷，它包含各種領域，如總結，經驗和愛好。

我有興趣只提取經驗，這個經驗領域將在第一或第二位或在任何地方，我需要確定經驗領域的位置和需要提取數據。

我該怎麼做？

到目前爲止做了什麼以及究竟出了什麼問題？ –

這是可行的，用標題提取數據。否則，是否有任何想法做到這一點 –

在一般情況下，它不能完成（缺少渲染PDF文件並將結果提供給OCR系統）。 PDF是一種顯示格式，不能保證有任何用於定義字段的內部結構，更不用說任何標準化的結構。如果你有一堆由完全相同的軟件棧生成的PDF，你可以將它們解析爲特殊情況（這與其他人的特殊情況不同）。 – nigel222

有2種可行的方法來提取場數據：獲得它的位置

搜索一些預定義的關鍵字，如Experience。然後搜索下一部分的關鍵字（Hobbies），然後確定這兩個部分之間的文本分區的座標，並從此位置提取此文本。
如果使用相同的生成器生成PDF，那麼您可以找到Experience部分的座標，並且每次只從同一位置提取文本。
（最簡單）只需將整個頁面轉換爲文本，然後使用子字符串搜索或正則表達式解析生成的文本。這將是最簡單和最簡單的方式，因爲所有有關PDF格式的工作都依賴於專用工具

2016-06-07 13:31:32

回答