bzip2

1熱度

2回答

我有一個腳本來解壓縮和解析包含在一堆非常大的bzip2壓縮文件中的數據。由於可能需要一段時間，我想有一些方法來監視進度。我知道我可以用os.path.getsize()獲得文件大小，但是bz2.BZ2File.tell()返回未壓縮數據中的位置。有沒有辦法在未壓縮文件中獲取當前位置，以便我可以監視進度？如果存在與Java的ProgressMonitorInputStream等效的python，則

1熱度

1回答

.bz2管道提取與Node.js？

我想提取.tar.bz2格式像tar.gz的下面與node.js的： request.get("localhost/file.tar.gz") .pipe(zlib.createGunzip()) .pipe(tar.Extract({path: "./test"})) .on("error", function(err){ console.log("Error on extrac

1熱度

1回答

兩個concatenated bz2文件和一個由兩個連接文件構成的bz2文件有什麼區別？

如果我有兩個文本文件，一個和，有什麼區別： BZ2一二-c> out.bz2 ......還有...... cat one two | bzip2 -c> out.bz2 ？具體來說，我使用pbzip2生成bz2文件，將它們放在HDFS上，然後從豬身上讀取它們，然後打到MAPREDUCE-477。我無法從版本0.20升級我的hadoop羣集，使用非並行bz2實現太慢，我想使用非塊壓縮算法。有什

12熱度

3回答

Hadoop輸入的最佳可拆分壓縮= bz2？

我們已經意識到，將GZip格式的文件歸檔爲Hadoop處理並不是一個好主意。 Gzip已沒有裂開的，以供參考，在這裏是我不會重複的問題： Very basic question about Hadoop and compressed input files Hadoop gzip compressed files Hadoop gzip input file using only one mapp

1熱度

1回答

提取壓縮的tar文件時，我們是否需要指定壓縮級別？

從我迄今爲止在OSX 10.8和CentOS 5.5上進行的測試中，看起來tar自動演繹歸檔的壓縮類型，即我可以做tar -xf <compressed archive>而不是tar -jxf <bzip2 compressed archive>或tar -zxf <gzip compressed archive>。我想知道如果我可以依賴tar的自動壓縮檢測功能，還是這個功能是新的？這些是我玩

3熱度

3回答

並行bzip2壓縮檔

我使用Apache Commons Compress for Java來日誌文件壓縮多爲單tar.bz2存檔。但是，壓縮需要很長的時間（> 12小時），因爲我每天壓縮大約20GB的文件。由於這個庫壓縮文件單線程，我想知道是否有辦法做到這一點多線程。我發現很多的解決方案（命令行pbzip2或一些C++庫），但我發現for Java是這個博客帖子： https://plus.google.com

1熱度

1回答

重複行的csv文件的最佳壓縮

我想知道是否有某種最佳方法來壓縮具有數百萬行重複/重複順序的csv文件。每行有4-5個元素。只有幾百個獨特的行，但是因爲它們每個都出現很多次，所以文件的總體大小很大。我不熟悉的工具如gzip，bzip2的，等使用的詳細交易算法，但我沿着是否有任何的方式來指示該模式的gzip或bzip2的線條思考。例如，如果我有100萬行a，b，c，d，e，那麼在內部，這可以最佳地表示爲abcde的條目，並且如果

3熱度

1回答

如何手動傳遞bzip2的安裝源以進行Python安裝？

我已經通過了幾個有關Python & bzip2的StackOverflow問題。這些對我現在明確的狀態非常有幫助。這是我到目前爲止已經完成，這個問題我有：我不具有root訪問權限，不能安裝libbz2-DEV（EL）在/ usr/bin中/ bzip2的是版本1.0.3 在/ usr/bin中/ Python的是2.4.3版本 GNU Stow被用來管理類似的庫如何，我的自制作品需要的Py

5熱度

2回答

什麼文件格式PharData :: extractTo將文件解壓縮爲？

我正在使用PHP PharData類的extractTo方法來檢查phar文件的內容並運行一些平穩的結果。我已經達到了我的字節級偵探工作的極限，並希望這裏有人能夠幫我解決這個問題。詳情如下，但一般來說：當我使用PharData::extractTo提取存檔文件時，我得到的文件是bzip變量，但bzip2命令不喜歡它們。這是正常的phar行爲，還是與特定檔案有關？（或者我使用的PHP/OS組合）

3熱度

1回答

將bz2壓縮的二進制文件導入爲numpy數組

我有一個包含數據數組的bz2壓縮二進制（大端）文件。使用外部工具進行解壓縮，然後讀取文件中numpy的工作： import numpy as np dim = 3 rows = 1000 cols = 2000 mydata = np.fromfile('myfile.bin').reshape(dim,rows,cols) 然而，由於有大量的這樣的其他文件，我不能提取每一個單獨提前。