2016-09-23 54 views
0

我遞歸搜索子目錄以查找符合特定條件的文件。然後我輸出文件名/路徑到一個平面文件。我希望能夠以並行模式將該文件中引用的文件複製到S3以加快處理時間。例如:AWS S3參考文件的並行副本

myfiles.txt: 
/data/srv/prod1/file1.tar.gz 
/data/srv/prod4/file12.tar.gz 
/data/srv/prod2/file255.tar.gz 

我能環通的文件並執行S3複製一個-AT-A-時間,但這些文件是非常大的,它需要一個很長的時間。

如何將引用文件並行複製到S3?

回答

0

當您遍歷文件名時,您可以在其自己的進程(或線程)中啓動每個傳輸。通過控制正在運行的進程或線程的數量,您可以一次傳輸多個文件。但是,一次傳輸太多文件實際上可能會損害傳輸速度。

0

使用GNU並行:

cat myfiles.txt |parallel -j0 s3cmd cp {} s3://bucket/folder/{/} 

調整-j0直到找到最大吞吐量。