工作變量/循環序列

我正在考慮使用hadoop/mapreduce來處理一個項目，而且還沒有完全想到如何設置一個由可變數量的層次組成的作業流程，這個層次應該按順序處理。工作變量/循環序列

例如爲：

Job 1: Map source data into X levels. 
Job 2: MapReduce Level1 -> appends to Level2 
Job 3: MapReduce Level2 -> appends to LevelN 
Job N: MapReduce LevelN -> appends to LevelN+1

依此類推，直至最後一級。關鍵是每個級別都必須包含自己的特定源數據以及之前級別的結果。

我已經看過豬，蜂巢，哈馬克和級聯，但還沒有看到明確支持這樣的事情。

有沒有人知道完成這個有效的方法？現在我傾向於爲hamake編寫一個包裝器，它將根據參數生成hamake文件（層數在運行時是已知的，但每次運行都會發生變化）。

謝謝！

來源

2010-09-02 David Bennett

Oozie的http://yahoo.github.com/oozie/是，雅虎發佈管理的Hadoop &豬的工作流程的開源服務器就像你問

Cloudera公司有它在其最新發行有很好的文檔https://wiki.cloudera.com/display/DOC/Oozie+Installation

這裏是從視頻http://sg.video.yahoo.com/watch/5936767/15449686 Yahoo

來源

2010-09-02 20:47:04

您應該可以使用Piglet，Ruby Pig DSL很容易地生成豬代碼： http://github.com/iconara/piglet

來源

2010-09-05 06:53:53 SquareCog

工作變量/循環序列

回答

相關問題