我在HDFS中有2個以下的文件和1個目錄。s3distcp從一個命令將文件和目錄從HDFS複製到S3
-rw-R - R-- 1級的hadoop的hadoop 11194859個2017年5月5日19時53分HDFS:///outputfiles/abc_output.txt
drwxr-XR-X - 的hadoop的hadoop 0 2017-05- 05 19點28 HDFS:/// outputfiles/sample_directory
-rw-R - R-- 1級的hadoop的hadoop 68507436 2017年5月5日19時55 HDFS:///outputfiles/sample_output.txt
我希望通過單個命令將gzip格式的abc_output.txt和sample_directory從HDFS複製到S3上。我不希望這些文件在S3上合併。
我的S3存儲應包含以下內容: abc_output.txt.gzip sample_directory.gzip
我試過如下:
S3-DIST-CP --s3Endpoint = s3.amazonaws.com - -src = hdfs:/// outputfiles/--dest = s3:// bucket-name/outputfiles/--outputCodec = gzip
但是,這會將所有文件和文件夾從源複製到目標。
通過參照 Deduce the HDFS path at runtime on EMR,我也嘗試了下面的命令:
S3-DIST-CP --s3Endpoint = s3.amazonaws.com --src = HDFS:/// outputfiles/--dest = S3 :// bucket-name/outputfiles/--srcPattern =。* abc_output.txt。 sample_directory。 --outputCodec = gzip,但失敗。