2013-02-27 86 views
0
import pyPdf 
f= open('jayabal_appt.pdf','rb') 
pdfl = pyPdf.PdfFileReader(f) 
content="" 
for i in range(0,1): 
    content += pdfl.getPage(i).extractText() + "\n" 
outpu = open('b.txt','wb') 
outpu.write(content) 
f.close() 
outpu.close() 

這不是從pdf文件獲取內容並將其存儲在txt文件中......此代碼中的錯誤是什麼? ???如何從PDF文件中獲取內容並將其存儲在txt文件中

回答

1

從筆者一個簡單的例子表明這樣做,(你似乎並不在做「文件」):

from pyPdf import PdfFileWriter, PdfFileReader 

output = PdfFileWriter() 
input1 = PdfFileReader(file("jayabal_appt.pdf", "rb")) 

然後你就可以做到以下幾點:

output.addPage(input1.getPage(0)) 

而且肯定,爲它使用for循環,但作者不建議使用extractText。

只是檢查出的網站,例子是相當直截了當:http://pybrary.net/pyPdf/

然而

pyPdf不再維持,所以我不建議使用它。作者建議檢出pyPdf2。

一個簡單的谷歌搜索也建議你應該嘗試pdftotext或pdfminer。那裏有很多例子。

祝你好運。

相關問題