0

我正嘗試在AWS EMR羣集上運行作業。即時得到的問題如下:亞馬遜網絡服務EMR文件系統

AWS產生java.io.IOException:無文件系統的方案:HDFS

我不知道到底哪裏我的問題所在(在我的Java罐子作業或作業的配置)

在我的S3存儲桶裏做一個文件夾(輸入),並在它即時將一堆文件與我的數據。然後在參數Im給出輸入文件夾的路徑,然後使用與FileInputPath.getInputPath(args [0])相同的路徑。

我的問題是 - 首先將作業抓住輸入文件夾中的所有文件並全部處理它們,或者我必須提供每個文件的所有路徑?

第二個問題 - 如何解決上述異常?

謝謝

回答

0

保持輸入文件在S3中。例如s3:// mybucket/input/ 將所有文件保存在我的存儲桶下的輸入文件夾中。

在你映射減少使用代碼如下

FileInputFormat.addInputPath(job,"s3n://mybucket/input/") 

這會自動處理輸入文件夾下的所有文件。