2010-09-02 33 views
1

我正在考慮使用hadoop/mapreduce來處理一個項目,而且還沒有完全想到如何設置一個由可變數量的層次組成的作業流程,這個層次應該按順序處理。工作變量/循環序列

例如爲:

Job 1: Map source data into X levels. 
Job 2: MapReduce Level1 -> appends to Level2 
Job 3: MapReduce Level2 -> appends to LevelN 
Job N: MapReduce LevelN -> appends to LevelN+1 

依此類推,直至最後一級。關鍵是每個級別都必須包含自己的特定源數據以及之前級別的結果。

我已經看過豬,蜂巢,哈馬克和級聯,但還沒有看到明確支持這樣的事情。

有沒有人知道完成這個有效的方法?現在我傾向於爲hamake編寫一個包裝器,它將根據參數生成hamake文件(層數在運行時是已知的,但每次運行都會發生變化)。

謝謝!

回答