2014-10-12 91 views
4

如何在將數據保存到Amazon S3時使Apache Spark使用分段上傳。 Spark使用RDD.saveAs...File方法寫入數據。當目的地以s3n://開頭時,Spark會自動使用JetS3Tt進行上傳,但對於大於5G的文件,此操作將失敗。需要使用分段上傳將大文件上傳到S3,這對於較小的文件也是有利的。在JetS3Tt中支持分段上傳,帶有MultipartUtils,但Spark在默認配置中不使用此功能。有沒有辦法讓它使用這個功能。從Apache Spark將分段上傳到Amazon S3

回答

0

s3n似乎在棄用路徑。

從他們documentation

亞馬遜EMR使用的S3本地文件系統與所述URI方案,S3N。雖然這仍然有效,我們建議您使用最佳的性能,安全性S3 URI方案和可靠性

+0

但Spark不支持s3:// ... – 2015-01-27 18:07:42

2

這是S3N的限制,你可以使用新的S3A協議來訪問您的S3中的文件。 s3a基於aws-adk庫,並支持包括分段上傳在內的大部分功能。在此link中的更多詳細信息: