2016-06-07 122 views
1

我想用python解析PDF文件。我看到了PDFMiner的例子,它無法解釋我的要求。從python中抽取特定標題的PDF數據

例如,如果我想解析簡歷,它包含各種領域,如總結,經驗和愛好。

我有興趣只提取經驗,這個經驗領域將在第一或第二位或在任何地方,我需要確定經驗領域的位置和需要提取數據。

我該怎麼做?

+0

到目前爲止做了什麼以及究竟出了什麼問題? –

+0

這是可行的,用標題提取數據。否則,是否有任何想法做到這一點 –

+0

在一般情況下,它不能完成(缺少渲染PDF文件並將結果提供給OCR系統)。 PDF是一種顯示格式,不能保證有任何用於定義字段的內部結構,更不用說任何標準化的結構。如果你有一堆由完全相同的軟件棧生成的PDF,你可以將它們解析爲特殊情況(這與其他人的特殊情況不同)。 – nigel222

回答

1

有2種可行的方法來提取場數據:獲得它的位置

  1. 搜索一些預定義的關鍵字,如Experience。然後搜索下一部分的關鍵字(Hobbies),然後確定這兩個部分之間的文本分區的座標,並從此位置提取此文本。

  2. 如果使用相同的生成器生成PDF,那麼您可以找到Experience部分的座標,並且每次只從同一位置提取文本。

  3. (最簡單)只需將整個頁面轉換爲文本,然後使用子字符串搜索或正則表達式解析生成的文本。這將是最簡單和最簡單的方式,因爲所有有關PDF格式的工作都依賴於專用工具

相關問題