如何通過java代碼在hadoop集羣環境中提取.gz文件,而無需將文件複製到本地(通過代碼直接在hadoop中提取)?如何在hadoop集羣環境中提取.gz文件?
0
A
回答
0
「gunzip -k file.gz」通常用於解壓.gz文件,同時保留原始.gz,它是你在找什麼?
+0
不....我想在java中的代碼提取....需要通過代碼....不通過終端... –
0
考慮你的。廣州文件中有一個文件,你可以這樣做:
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path inFile = new Path(argv[0]);
Path outFile = new Path(argv[1]);
FSDataInputStream in = fs.open(inFile);
org.apache.hadoop.io.compress.GzipCodec.GzipInputStream gis = new org.apache.hadoop.io.compress.GzipCodec.GzipInputStream(in);
FSDataOutputStream out = fs.create(outFile);
doCopy(gis, out);
public static void doCopy(FSDataInputStream is, FSDataOutputStream os) throws Exception {
int oneByte;
while ((oneByte = is.read()) != -1) {
os.write(oneByte);
}
os.close();
is.close();
}
0
這樣做的其他方式,你可以創建一個shell腳本並運行時,你需要相同的腳本。或者你試着在你的代碼中實現終端命令。
如果你想從終端做它,你可以運行此命令
的gzip [-acdfhlLnNrtvV19] [-S後綴] [名稱...] gunzip解[-acfhlLnNrtvV] [-S後綴] [名...]
相關問題
- 1. 如何在Hadoop環境中找到集羣名稱?
- 2. 如何在WebSphre集羣環境中部署EAR文件?
- 3. 如何防止hadoop損壞.gz文件
- 4. 放文件的Hadoop環境
- 5. 在Hadoop Virtualbox羣集上訪問文件
- 6. 什麼是在集羣環境中
- 7. 在Weblogic羣集環境中登錄-LINUX
- 8. 在集羣環境中使用石英
- 9. 在集羣環境中的subclipse
- 10. 在集羣環境中配置log4j
- 11. 在集羣環境中緩存
- 12. 如何估算Hadoop集羣?
- 13. 如何在此環境中形成羣集並選擇羣集標頭?
- 14. 從* .gz擴展名中提取文件
- 15. 從損壞的GZ中提取文件
- 16. 如何在Java中動態提取.gz文件?
- 17. 在hadoop集羣上安裝spark集羣
- 18. 爲Hadoop集羣
- 19. Intellij從hadoop集羣訪問文件
- 20. 如何在tomcat 6.0集羣環境中實現緩存同步?
- 21. 如何在集羣環境中管理彈簧緩存
- 22. 如何在Websphere 6.1集羣環境中運行計劃任務
- 23. 如何從文件中讀取環境
- 24. 多集羣環境中的JCR鎖定
- 25. 集羣環境中的資產管理
- 26. 如何使用Hadoop Streaming在本地Hadoop集羣中運行MRJob?
- 27. 從Hadoop集羣中運行Web抓取
- 28. Hadoop集羣與碼頭羣
- 29. 瞭解與GZ文件的Hadoop行爲
- 30. Hbase Hadoop集羣.. java.io.IOException:java.lang.NoSuchMethodExceptio
這是輸入到MapReduce作業嗎? –
@BinaryNerd號 –