想要比較Hadoop上的兩個連續作業

我想知道我是否可以比較Hadoop中的兩個連續作業。如果沒有，我會很感激，如果任何人都可以告訴我如何繼續。準確地說，我想根據兩個職位做什麼來比較這些職位？這樣做的原因是創建一個關於Hadoop上執行的作業在行爲方面相似的統計信息。例如，相同的排序功能在相同的輸入上執行多少次。例如，如果第一個工作做了類似SortList（A）的工作，而其他一些工作做了SortList（A）+ Group（result（SortList（A））。現在，我想知道是否在Hadoop中存儲了一些映射某個地方像JobID X-> SortList（A）想要比較Hadoop上的兩個連續作業

到目前爲止，我認爲這個問題是在Hadoop中找到切入點，並嘗試瞭解如何創建job以及使用jobID保存哪些信息以及表單（代碼形式或一些描述），但我沒能成功解決它

來源

2011-04-24 user722856

Hadoop的計數器可能是一個很好的開始。您可以定義自己的計數器名稱（例如，每個計數器名稱是您正在處理的數據集），並且每次對該計數器執行排序時都會增加該計數器。但是，查找您正在處理的數據集可能是更困難的任務。

這裏有一個教程，我發現： http://philippeadjiman.com/blog/2010/01/07/hadoop-tutorial-series-issue-3-counters-in-action/

來源

2011-06-08 16:35:53

編號Hadoop作業只是程序，它們可以有任何副作用，它們可以寫普通文件，hdfs文件，或者一個數據庫，hadoop中沒有什麼是recordin g所有的活動。所有hadoop都在管理時間表和數據流。

來源

2011-04-24 19:05:20 bmargulies

其實，我發現它維護的有關作業的信息位，但我不認爲這是任何方式使用我的。但是，最重要的是，如果我能夠在開始執行之前以某種方式做到這一點。我的意思是如果我能夠知道什麼是hadoop的入口點。那麼我想修改代碼，以便我可以做我需要的東西...如果你可以告訴關於這個的東西..另外，我想感謝你的答覆..這真的有助於某種程度上，至少它給了我一些方向...... – user722856 2011-04-24 19:16:54

Hadoop畢竟是開源的，所以你可以閱讀它的每一行。 '入口點'將是hadoop命令的shell腳本，它運行一個特定的java類，並關閉它。 – bmargulies 2011-04-24 19:21:26

想要比較Hadoop上的兩個連續作業

回答

相關問題