2011-05-20 71 views
1

我從我的站點創建數據轉儲以供其他人下載和分析。每個轉儲將是一個巨大的XML文件。什麼是數據轉儲的最佳壓縮算法

我想弄清楚,最好的壓縮算法:

  • 壓縮效率(CPU明智)
  • 使盡可能小的文件
  • 是相當普遍的

我知道壓縮的基礎知識,但對哪種算法符合法案並無任何線索。我將使用MySQL和Python來生成轉儲,所以我需要一些優秀的python庫。

+0

大概只是使用gzip ... – 2011-05-20 05:35:11

+0

我認爲'CPU-wise'和'最小可能的文件'是相互排斥的。 – 2011-05-20 05:38:08

回答

3

對於大多數情況,標準壓縮級別的GZIP應該沒問題。更高的壓縮級別=更多的CPU時間。 BZ2包裝更好,但速度也更慢。那麼,在CPU消耗/運行時間和壓縮效率之間總是有一個折衷關係......所有具有默認壓縮級別的壓縮都應該沒問題。

+0

+1對於速度很重要的大型文本文件,只需在最快的設置下使用gzip即可。 – samplebias 2011-05-20 06:08:27

+0

結束使用這個。 Mark Pilgrim的「潛入Python 3.0」也爲它提供了很好的指導,它總是很方便。 – mlissner 2011-05-23 01:31:38