2017-11-11 137 views
1

我正在處理大型數據集並在其上運行Mapreduce程序。我可以輕鬆地在單個文件上運行Mapreduce,大小約爲3 GB。知道我想在所有文件上運行mapreduce。是否有任何捷徑或技術直接在所有文件上運行mapreduce。 使用OS-Ubuntu Hadoop-2.7.1如何同時在大量文件上運行mapreduce程序?

回答

1

如果您具有所有可用的文件,請在map-reduce輸入參數中指定目錄/正則表達式來代替文件名。

例子: 斌/ Hadoop的罐子wc.jar WORDCOUNT /user/joe/wordcount/*.txt /用戶/喬/單詞計數/輸出

如果你不斷地獲取文件和希望的過程當他們到達時。 您必須一次又一次地運行map-reduce作業。因爲這是批量工作。

相關問題