2015-03-19 76 views
0

我有一個大小爲2.5 GB的文本文件,其中包含一些標準已知文件的哈希值。我的任務是在我的文件系統上查找所有文件的散列,並將其與存儲在文本文件中的散列進行比較。如果發現匹配,我需要打印已知的屏幕上,如果沒有找到匹配,那麼我需要在屏幕上打印未知。在Python中以編程方式執行超大文件搜索

因此,該任務的方法非常簡單,但主要問題是該過程涉及的文件非常龐大。

有人可以建議如何以優化的方式完成這項任務。

我應該將包含散列的文本文件導入數據庫。如果是的話,那麼請提供一些可能幫助我完成的鏈接。

其次我可以使用什麼算法進行搜索以加速進程?

我的首選語言是Python。

回答

0
  • 在計算器上搜索代碼可以遞歸列出完整的文件名的Python爲代碼在計算器上
  • 搜索返回文件

的哈希值校驗然後列出使用迭代函數文件。內環路:

  • 獲取當前文件的哈希值校驗在遍歷每個哈希

  • 迭代。內環路:

    • 當前文件的校驗

算法進行比較?不要擔心。如果你遍歷文件的每一行,它會沒事的。不要一次加載它,並且不要將其加載到列表或字典等數據結構中,因爲可能會導致內存不足。