PDFMiner - 獲取文本行

我轉換PDF文件與PDFMiner Python library文本，使用this SO answer提供的代碼段。問題是PDF格式爲三列，我需要閱讀每一行。但是，我得到的文本是無序的：有時混合第一和第二列，有時混第三個......由於文字不遵循任何邏輯順序，我不能分析每一行。那麼，有什麼辦法可以使用PDFMiner獲取PDF文件的每一行？PDFMiner - 獲取文本行

編輯：

PDFMiner配備了一個命令行工具，pdf2txt.py，將PDF轉換爲文本。用它播放和設置0.05如文字保證金，我可以得到一個更好的格式化文本，但卻無法實現這一目標。

來源

2013-08-06 davids

我分析表時*也有類似的。對我有用的是提取HTML。然後你就可以解析HTML表格，並採取表格標籤考慮（請參閱HTMLParser的Python文檔）。我只用了表中查找，壽。

我的兩分錢:)

從字表*複製到文本編輯QT部件。 Widget接受豐富的文本，但是如果將其導出爲文本，表格將被廢棄。導出爲HTML，解析HTML，獲取數據:)這是否工作，沒有代碼在這裏。

來源

2013-08-06 08:22:30

PDFMiner - 獲取文本行

回答

相關問題