如何同時在大量文件上運行mapreduce程序？

我正在處理大型數據集並在其上運行Mapreduce程序。我可以輕鬆地在單個文件上運行Mapreduce，大小約爲3 GB。知道我想在所有文件上運行mapreduce。是否有任何捷徑或技術直接在所有文件上運行mapreduce。使用OS-Ubuntu Hadoop-2.7.1如何同時在大量文件上運行mapreduce程序？

來源

2017-11-11 Vijay Paul Singh

如果您具有所有可用的文件，請在map-reduce輸入參數中指定目錄/正則表達式來代替文件名。

例子： 斌/ Hadoop的罐子wc.jar WORDCOUNT /user/joe/wordcount/*.txt /用戶/喬/單詞計數/輸出

如果你不斷地獲取文件和希望的過程當他們到達時。您必須一次又一次地運行map-reduce作業。因爲這是批量工作。

來源

2017-11-11 18:12:30 Jembo

如何同時在大量文件上運行mapreduce程序？

回答

相關問題