AWS S3參考文件的並行副本

2016-09-23 54 views 0 likes

我遞歸搜索子目錄以查找符合特定條件的文件。然後我輸出文件名/路徑到一個平面文件。我希望能夠以並行模式將該文件中引用的文件複製到S3以加快處理時間。例如：AWS S3參考文件的並行副本

myfiles.txt: 
/data/srv/prod1/file1.tar.gz 
/data/srv/prod4/file12.tar.gz 
/data/srv/prod2/file255.tar.gz

我能環通的文件並執行S3複製一個-AT-A-時間，但這些文件是非常大的，它需要一個很長的時間。

如何將引用文件並行複製到S3？

來源

回答

當您遍歷文件名時，您可以在其自己的進程（或線程）中啓動每個傳輸。通過控制正在運行的進程或線程的數量，您可以一次傳輸多個文件。但是，一次傳輸太多文件實際上可能會損害傳輸速度。

2016-09-24 17:58:03 jbird

使用GNU並行：

cat myfiles.txt |parallel -j0 s3cmd cp {} s3://bucket/folder/{/}

調整-j0直到找到最大吞吐量。

2016-09-24 19:38:34