2014-11-03 98 views
0

我正在運行流式作業,使用Python腳本進行映射和縮減。我用boto庫創建的工作流程。ElasticMapReduce流式壓縮輸出

我正在使用gzip輸入文件。但是,我怎樣才能創建gzip輸出文件?

回答

0

我使用java來處理gzip文件並以gzip壓縮方式生成輸出。我用下面的代碼

FileOutputFormat.setCompressOutput(job, true); 
    FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class); 
    FileOutputFormat.setOutputPath(job, output path)); 

我希望你會發現類似的API /代碼在Python中。

您可以生成gzip文件作爲生成的輸出。通過'-D mapred.output.compress = true -D mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec'作爲您的流式作業的選項。