2011-04-24 101 views
0

我想知道我是否可以比較Hadoop中的兩個連續作業。如果沒有,我會很感激,如果任何人都可以告訴我如何繼續。準確地說,我想根據兩個職位做什麼來比較這些職位?這樣做的原因是創建一個關於Hadoop上執行的作業在行爲方面相似的統計信息。例如,相同的排序功能在相同的輸入上執行多少次。例如,如果第一個工作做了類似SortList(A)的工作,而其他一些工作做了SortList(A)+ Group(result(SortList(A))。現在,我想知道是否在Hadoop中存儲了一些映射某個地方像JobID X-> SortList(A)想要比較Hadoop上的兩個連續作業

到目前爲止,我認爲這個問題是在Hadoop中找到切入點,並嘗試瞭解如何創建job以及使用jobID保存哪些信息以及表單(代碼形式或一些描述),但我沒能成功解決它

回答

0

編號Hadoop作業只是程序,它們可以有任何副作用,它們可以寫普通文件,hdfs文件,或者一個數據庫,hadoop中沒有什麼是recordin g所有的活動。所有hadoop都在管理時間表和數據流。

+0

其實,我發現它維護的有關作業的信息位,但我不認爲這是任何方式使用我的。但是,最重要的是,如果我能夠在開始執行之前以某種方式做到這一點。我的意思是如果我能夠知道什麼是hadoop的入口點。那麼我想修改代碼,以便我可以做我需要的東西...如果你可以告訴關於這個的東西..另外,我想感謝你的答覆..這真的有助於某種程度上,至少它給了我一些方向...... – user722856 2011-04-24 19:16:54

+0

Hadoop畢竟是開源的,所以你可以閱讀它的每一行。 '入口點'將是hadoop命令的shell腳本,它運行一個特定的java類,並關閉它。 – bmargulies 2011-04-24 19:21:26