bzip2

    1熱度

    2回答

    我有一個腳本來解壓縮和解析包含在一堆非常大的bzip2壓縮文件中的數據。由於可能需要一段時間,我想有一些方法來監視進度。我知道我可以用os.path.getsize()獲得文件大小,但是bz2.BZ2File.tell()返回未壓縮數據中的位置。有沒有辦法在未壓縮文件中獲取當前位置,以便我可以監視進度? 如果存在與Java的ProgressMonitorInputStream等效的python,則

    1熱度

    1回答

    我想提取.tar.bz2格式像tar.gz的下面與node.js的: request.get("localhost/file.tar.gz") .pipe(zlib.createGunzip()) .pipe(tar.Extract({path: "./test"})) .on("error", function(err){ console.log("Error on extrac

    1熱度

    1回答

    如果我有兩個文本文件,一個和,有什麼區別: BZ2一二-c> out.bz2 ......還有...... cat one two | bzip2 -c> out.bz2 ? 具體來說,我使用pbzip2生成bz2文件,將它們放在HDFS上,然後從豬身上讀取它們,然後打到MAPREDUCE-477。我無法從版本0.20升級我的hadoop羣集,使用非並行bz2實現太慢,我想使用非塊壓縮算法。 有什

    12熱度

    3回答

    我們已經意識到,將GZip格式的文件歸檔爲Hadoop處理並不是一個好主意。 Gzip已沒有裂開的,以供參考,在這裏是我不會重複的問題: Very basic question about Hadoop and compressed input files Hadoop gzip compressed files Hadoop gzip input file using only one mapp

    1熱度

    1回答

    從我迄今爲止在OSX 10.8和CentOS 5.5上進行的測試中,看起來tar自動演繹歸檔的壓縮類型,即我可以做tar -xf <compressed archive>而不是tar -jxf <bzip2 compressed archive>或tar -zxf <gzip compressed archive>。 我想知道如果我可以依賴tar的自動壓縮檢測功能,還是這個功能是新的? 這些是我玩

    3熱度

    3回答

    我使用Apache Commons Compress for Java來日誌文件壓縮多爲單tar.bz2存檔。 但是,壓縮需要很長的時間(> 12小時),因爲我每天壓縮大約20GB的文件。 由於這個庫壓縮文件單線程,我想知道是否有辦法做到這一點多線程。 我發現很多的解決方案(命令行pbzip2或一些C++庫),但我發現for Java是這個博客帖子: https://plus.google.com

    1熱度

    1回答

    我想知道是否有某種最佳方法來壓縮具有數百萬行重複/重複順序的csv文件。每行有4-5個元素。只有幾百個獨特的行,但是因爲它們每個都出現很多次,所以文件的總體大小很大。 我不熟悉的工具如gzip,bzip2的,等使用的詳細交易算法,但我沿着是否有任何的方式來指示該模式的gzip或bzip2的線條思考。例如,如果我有100萬行a,b,c,d,e,那麼在內部,這可以最佳地表示爲abcde的條目,並且如果

    3熱度

    1回答

    我已經通過了幾個有關Python & bzip2的StackOverflow問題。這些對我現在明確的狀態非常有幫助。這是我到目前爲止已經完成,這個問題我有: 我不具有root訪問權限,不能安裝libbz2-DEV(EL) 在/ usr/bin中/ bzip2的是版本1.0.3 在/ usr/bin中/ Python的是2.4.3版本 GNU Stow被用來管理類似的庫如何,我的自制作品 需要的Py

    5熱度

    2回答

    我正在使用PHP PharData類的extractTo方法來檢查phar文件的內容並運行一些平穩的結果。我已經達到了我的字節級偵探工作的極限,並希望這裏有人能夠幫我解決這個問題。 詳情如下,但一般來說:當我使用PharData::extractTo提取存檔文件時,我得到的文件是bzip變量,但bzip2命令不喜歡它們。這是正常的phar行爲,還是與特定檔案有關? (或者我使用的PHP/OS組合)

    3熱度

    1回答

    我有一個包含數據數組的bz2壓縮二進制(大端)文件。使用外部工具進行解壓縮,然後讀取文件中numpy的工作: import numpy as np dim = 3 rows = 1000 cols = 2000 mydata = np.fromfile('myfile.bin').reshape(dim,rows,cols) 然而,由於有大量的這樣的其他文件,我不能提取每一個單獨提前。