2013-08-06 70 views
2

我轉換PDF文件與PDFMiner Python library文本,使用this SO answer提供的代碼段。問題是PDF格式爲三列,我需要閱讀每一行。但是,我得到的文本是無序的:有時混合第一和第二列,有時混第三個......由於文字不遵循任何邏輯順序,我不能分析每一行。那麼,有什麼辦法可以使用PDFMiner獲取PDF文件的每一行?PDFMiner - 獲取文本行

編輯:

PDFMiner配備了一個命令行工具,pdf2txt.py,將PDF轉換爲文本。用它播放和設置0.05如文字保證金,我可以得到一個更好的格式化文本,但卻無法實現這一目標。

回答

0

我分析表時*也有類似的。對我有用的是提取HTML。然後你就可以解析HTML表格,並採取表格標籤考慮(請參閱HTMLParser的Python文檔)。我只用了表中查找,壽。

我的兩分錢:)

從字表*複製到文本編輯QT部件。 Widget接受豐富的文本,但是如果將其導出爲文本,表格將被廢棄。導出爲HTML,解析HTML,獲取數據:)這是否工作,沒有代碼在這裏。