2
我轉換PDF文件與PDFMiner Python library文本,使用this SO answer提供的代碼段。問題是PDF格式爲三列,我需要閱讀每一行。但是,我得到的文本是無序的:有時混合第一和第二列,有時混第三個......由於文字不遵循任何邏輯順序,我不能分析每一行。那麼,有什麼辦法可以使用PDFMiner獲取PDF文件的每一行?PDFMiner - 獲取文本行
編輯:
PDFMiner配備了一個命令行工具,pdf2txt.py
,將PDF轉換爲文本。用它播放和設置0.05
如文字保證金,我可以得到一個更好的格式化文本,但卻無法實現這一目標。