我用下面的代碼來讀取pdf文件,但它沒有讀取它。可能是什麼原因?使用python逐行讀取pdf文件
>>> import os
>>> from PyPDF2 import PdfFileReader, PdfFileWriter
>>> path = "/Users/Rahul/Desktop/Dfiles/"
>>> dirs = os.listdir(path)
>>> directory = "/Users/Rahul/Desktop/Dfiles/106_2015_34-76357.pdf"
>>> f = open(directory, 'rb')
>>> reader = PdfFileReader(f)
>>> contents = reader.getPage(0).extractText().split('\n')
>>> f.close()
>>> print contents
輸出是[u'']而不是讀取內容。
它適用於0以外的其他頁碼嗎?你確定PDF中有文字,而不僅僅是圖像或圖形嗎? – mkrieger1