我正在使用Cloudera Hadoop。我能夠運行簡單的mapreduce程序,我提供一個文件作爲MapReduce程序的輸入。Hadoop:提供目錄作爲MapReduce作業的輸入
此文件包含要由映射器函數處理的所有其他文件。
但是,我被困在一個點上。
/folder1
- file1.txt
- file2.txt
- file3.txt
我怎麼能指定輸入路徑的MapReduce程序爲"/folder1"
,使之可以開始處理該目錄內的每個文件?
任何想法?
編輯:
1)Intiailly,我提供的inputFile.txt作爲輸入到映射精簡程序。它工作完美。
>inputFile.txt
file1.txt
file2.txt
file3.txt
2)但是現在,我不想給一個輸入文件,我想在命令行上提供一個輸入目錄作爲arg [0]。
hadoop jar ABC.jar /folder1 /output
你是如何提交/創建工作嗎? –
檢查編輯..... –
是的,就是這樣工作,你的問題是什麼? –