2014-01-23 64 views
1

我想在一個Job中使用多種輸入格式。我已經使用org.apache.hadoop.mapreduce.lib.input.MultipleInputs,但是這個實用程序似乎只針對HDFS上存在的輸入(有一個路徑)。Hadoop MapReduce多輸入

有沒有辦法使用不同來源的多種輸入格式?

我的具體需求如下...

我想有一個執行減少副作用的單一工作從以往的彈性搜索索引加入(利用由https://github.com/elasticsearch/elasticsearch-hadoop提供的ESInputFormat)與一組序列包含要編入索引的信息的文件。我想從這些多輸入讀取合併到reduce階段,並插入到另一個索引(帶有一些額外的邏輯)供以後使用。

對此提出建議?

回答

0

您仍然可以使用MultipleInputs並傳入非空路徑。它不需要指向一個有效的位置來繼續工作,它不能爲空。

這是可以的我想。