2016-01-21 457 views
3

我理解HDFS和Map Reduce的概念,以及將處理邏輯移動到數據以提高效率的重要性。我甚至可以在我的基本Hadoop集羣上運行幾個map reduce任務。在這些概念的周圍,有很多不同的技術,如YARN,HUE,OOZIE,它們似乎都做同樣的事情(至少從很高的層面來看),這是作業的可見性和CRUD能力(可以是map-reduce或者是其他東西)。HUE,YARN和OOZIE之間的區別

我是否正確地做出了這個假設,還是兩者之間存在更爲根本的區別?

感謝 凱

回答

2

YARN - 地圖Reduce是API,你必須實現它的數據處理邏輯。編譯代碼後,您必須使用hadoop jar命令提交作業。 YARN是將跟蹤資源,在集羣上提交作業,執行作業,顯示/記錄進度的框架。

OOZIE - 以數據集成爲例。您可能需要從一個數據庫獲取數據集,並從其他數據庫獲取其他數據集,然後您想要加入,處理數據並將其重新加載到緩存或第三個數據庫中。它涉及2個sqoop作業,從數據庫中提取數據,配置/映射reduce作業以加入和處理數據,然後推入緩存/數據庫。所有這些工作都相互依賴,例如:我們應該只在從源數據庫中提取數據後才處理數據。因此,我們需要創建一個工作流來執行完整的數據集成過程。 OOZIE可以促進這一點。這是基於地圖減少的工作流程工具。自我工作流將作爲一個或多個地圖縮減作業執行。

HUE:Hadoop中有許多工具--HDFS(文件系統),Sqoop,Hive/pig來處理數據,Impala,HBase等等。要執行POC,連接到羣集可能會很繁瑣。另外它需要一些linux技能。爲了克服這些挑戰,所有的Hadoop生態系統工具都集中在一個名爲Hue的環境中。

+0

感謝您的解釋。我發現OOZIE工作流程是通過命令行界面主要提交的。 OOZIE UI似乎不提供創建/提交工作流功能。另一方面,HUE似乎有一個非常漂亮的界面,並允許我們創建和提交OOZIE工作流程。我的理解是否正確?什麼讓我們對系統有更多的操作可見性(就什麼樣的工作/工作流程運行,哪些失敗,誰佔用資源等)OOZIE或HUE –

相關問題