1
我想在一個Job中使用多種輸入格式。我已經使用org.apache.hadoop.mapreduce.lib.input.MultipleInputs,但是這個實用程序似乎只針對HDFS上存在的輸入(有一個路徑)。Hadoop MapReduce多輸入
有沒有辦法使用不同來源的多種輸入格式?
我的具體需求如下...
我想有一個執行減少副作用的單一工作從以往的彈性搜索索引加入(利用由https://github.com/elasticsearch/elasticsearch-hadoop提供的ESInputFormat)與一組序列包含要編入索引的信息的文件。我想從這些多輸入讀取合併到reduce階段,並插入到另一個索引(帶有一些額外的邏輯)供以後使用。
對此提出建議?