如何從PDF文件中獲取內容並將其存儲在txt文件中

import pyPdf 
f= open('jayabal_appt.pdf','rb') 
pdfl = pyPdf.PdfFileReader(f) 
content="" 
for i in range(0,1): 
    content += pdfl.getPage(i).extractText() + "\n" 
outpu = open('b.txt','wb') 
outpu.write(content) 
f.close() 
outpu.close()

這不是從pdf文件獲取內容並將其存儲在txt文件中......此代碼中的錯誤是什麼？ ???如何從PDF文件中獲取內容並將其存儲在txt文件中

來源

2013-02-27 Venkatraman K

從筆者一個簡單的例子表明這樣做，（你似乎並不在做「文件」）：

from pyPdf import PdfFileWriter, PdfFileReader 

output = PdfFileWriter() 
input1 = PdfFileReader(file("jayabal_appt.pdf", "rb"))

然後你就可以做到以下幾點：

output.addPage(input1.getPage(0))

而且肯定，爲它使用for循環，但作者不建議使用extractText。

只是檢查出的網站，例子是相當直截了當：http://pybrary.net/pyPdf/

然而

pyPdf不再維持，所以我不建議使用它。作者建議檢出pyPdf2。

一個簡單的谷歌搜索也建議你應該嘗試pdftotext或pdfminer。那裏有很多例子。

祝你好運。

來源

2013-02-27 13:56:57 Jonast92

如何從PDF文件中獲取內容並將其存儲在txt文件中

回答

相關問題