2012-04-07 70 views
0

我有一個pdf的庫(大多數都有一些隨機壓縮的東西,也是djvu的)。其中一些pdf已經損壞,應該刪除。Python的PDF完整性檢查

是否有無論如何我可以做Python的PDF完整性檢查?

回答

2

你可以pyPDF閱讀PDF和聲明它無效的,如果讀取過程給你一個錯誤......像這樣,

from pyPdf import PdfFileReader 
try : 
    mypdf = PdfFileReader(file('filename', 'rb')) 
except: 
    print filename,' is invalid pdf' 
+0

確定。我現在正在嘗試,但我想知道是否有其他方式。另外,我假設pdf數據的散列是唯一的是的? (假設沒有碰撞) – 2012-04-07 14:22:06

+0

是的,PDF散列應該是唯一的。但是PyPDF不會打開很多PDF文件,但大多數PDF閱讀器最多隻能提供一份可能的刪除候選清單。 – 2015-07-20 20:47:38