2017-07-26 394 views
0

我有一個hdfs文件,其大小爲11 GB。我想分割成1 GB的多個文件。 我該怎麼做?我的Hadoop版本是2.7.3hadoop命令在HDFS上拆分文件

+0

爲什麼要拆分檔案? –

+0

可能的重複-https://stackoverflow.com/questions/29567139/how-to-divide-a-big-dataset-into-multiple-small-files-in-hadoop-in-an-efficient –

+0

hdfs dfs - Ddfs.block.size = 1G -put file' – philantrovert

回答

0

如果有火花,嘗試如下─

下面的例子拆分輸入文件分成2個文件:

spark-shell

scala> sc.textFile("/xyz-path/input-file",2).saveAsTextFile("/xyz-path/output-file")