2010-10-03 48 views
3

我正在尋找一個實用程序,它將幫助我查找重複的PDF。問題:我有1000個PDF文件。有些是重複的。由於不同的文件名稱和文件大小的細微差異,它們並不容易檢測到。是否有一個實用程序/算法/庫,可以幫助我找到重複或顯示非常相似(或差異程度)的文件?查找複製PDFs

+0

剛剛找到可以工作的實用程序:http://anti-twin.com/ – Elvin 2010-10-03 15:45:29

回答

1

DiffPDF看起來像是可以幫助你的東西。

+0

DiffPDF並排比較2個文件。不幸的是,我有1000個文件要比較,所以自動化解決方案將是最好的。 – Elvin 2010-10-03 15:44:39

1

爲每個文件創建一個MD5散列並將其存儲在數據庫中。然後相同的文件將相鄰排序,或者您可以快速搜索預先存在的密鑰。

1

我記得有一個名爲pdf2txt的UNIX實用程序(請參閱包poppler-utils)。您可以嘗試從文件中提取文本並進行文本比較。

1

問題還沒有解決。我所做的是,我使用fdupes http://premium.caribe.net/~adrian2/fdupes.html來查找確切的重複項。

但最重要的是,我使用的工作流最小化了重複。每一個進入我的系統的文檔都被這個Perl腳本編入索引,我寫了:http://seegras.discordia.ch/Programs/fileindex,它把一些名字和它的一個md5和加到〜/ .fileindex.md5中現在我可以改變本地PDF文件的元數據或任何再次運行fileindex),並且每當我不經意地再次下載同一個文件時,我將繼續運行原始文件的md5-sum,從而可以檢測它是否是重複的。

還有exif-meta和exif重命名http://seegras.discordia.ch/Programs/這有助於設置PDF元數據和根據元數據重命名PDF文件;如果您正確標記所有文件,則最終會出現重複的文件名,表明它們可能是不同文件中的同一文件。