我已將複製粘貼到Word.docx文件中的一些Lorem Ipsum,將其保存爲PDF並嘗試運行以下腳本以進行測試以從PDF中提取文本。只能將列表(不是「unicode」)連接到列表
from pyPdf import PdfFileReader
if (fileExtension == ".PDF"):
pdfDoc = PdfFileReader(file(FOLDER+j, "rb"))
fileText = ""
print("Processing a PDF file")
for pdfpage in range(0,pdfDoc.getNumPages()):
fileText = fileText + pdfDoc.getPage(pdfpage).extractText()
fileText = cleantext(fileText)
fileText = fileText.splitlines(True)
else:
print("PLEASE CHOOSE A .PDF FILE")
它會爲任何PDF文件引發此特定錯誤。無論如何,當我每行運行代碼時,它似乎工作。所以,如果我第一次運行
for pdfpage in range(0,pdfDoc.getNumPages()):
fileText = fileText + pdfDoc.getPage(pdfpage).extractText()
然後下一行,然後fileText的最後一行,它的工作原理。那麼,我看不到什麼?
您能詳細說明一下嗎?什麼錯誤顯示,你是什麼意思「逐行運行代碼」? – thomaux
錯誤位於標題中。下面的themiurge提出了一個答案,但它不完整,因爲我想fileText工作 – PRIME