我使用的是Apache Spark,我必須從Amazon S3解析文件。如何從Amazon S3路徑獲取文件時知道文件擴展名?使用Apache Spark解析Amazon S3中的文件
1
A
回答
1
我建議遵循Cloudera的教程Accessing Data Stored in Amazon S3 through Spark
要訪問的Spark應用程序存儲在Amazon S3的數據,你可以 使用的Hadoop文件的API(
SparkContext.hadoopFile
,JavaHadoopRDD.saveAsHadoopFile
,SparkContext.newAPIHadoopRDD
和JavaHadoopRDD.saveAsNewAPIHadoopFile
)進行讀取和編寫RDD, 提供表格s3a://bucket_name/path/to/file.txt
的URL。您可以使用Data Source API讀寫Spark SQL DataFrame。
關於文件擴展名,有幾個解決方案。 您可以簡單地使用擴展名(即file.txt
)。
如果您的擴展程序被存儲在S3存儲桶中的文件刪除,您仍然可以知道爲每個S3資源添加的元數據的內容類型。
http://docs.aws.amazon.com/AmazonS3/latest/API/RESTObjectHEAD.html
相關問題
- 1. 從Apache Spark訪問公共可用的Amazon S3文件
- 2. PHP:從Amazon SES保存到S3的文件中解析郵件
- 3. 解析JavaScript中的Amazon S3輸出
- 4. Spark Streaming checkpoint to amazon s3
- 5. 在apache spark中用模式解析文件
- 6. 解析Apache Spark中的XML數據
- 7. 在Amazon S3上解壓ZIP文件
- 8. 使用Apache Spark/Spark SQL加入文件
- 9. 如何刪除X舊文件在Amazon S3中使用Amazon CLI
- 10. 使用FTP在Amazon S3上傳文件
- 11. 使用PHP處理Amazon S3文件夾
- 12. 使用Apache Tika解析XML文件
- 13. 從Apache Spark將分段上傳到Amazon S3
- 14. Apache Spark解析分裂記錄的json
- 15. 將Amazon S3集成到OSGi(Apache Felix)中
- 16. Redis,AOF文件和Amazon S3
- 17. 使Apache 2.2.11解析.wml文件爲PHP?
- 18. 使用Apache Spark進行實時分析
- 19. 從Amazon SQS提供Apache Spark流?
- 20. 使用python列出Amazon S3存儲桶中的所有文件
- 21. 使用Django存儲刪除Amazon S3中的文件
- 22. 如何使用apache commons解析xml中的配置文件?
- 23. 寫一個文件到Amazon S3
- 24. Sax從S3解析大文件
- 25. 用Delphi將文件上傳到Amazon S3
- 26. 從Amazon S3文件中刪除Etags?
- 27. 將Amazon S3與Amazon RDS一起使用
- 28. brew安裝apache-spark無法訪問s3文件
- 29. Apache Spark無法使用Amazon EC2上的spark-submit腳本連接到主節點
- 30. 使用spark解析NiFi數據包
謝謝你的回答。 還有一個問題是,我如何知道像(json,csv,txt)這樣的文件擴展名,我從S3獲取哪種類型的文件。 –
@Vpn_talent只需編寫答案的其餘部分... – freedev
爲什麼你要尋找擴展?你的s3文件末尾沒有擴展名嗎? – freedev