2014-09-23 95 views
0

我已經設置了Cloudera Hue,並且有一個主節點集羣爲200 Gib和16個Gib RAM,並且每個150個Gib和8個Gib Ram都有3個數據節點。如何按順序運行Hue Hive查詢

我有大小70 Gib的數據庫大約。問題是當我嘗試從配置單元編輯器(HUE GUI)運行Hive查詢時。如果我提交5到6個查詢(用於執行),則作業已啓動,但它們會掛起而不會運行。我如何順序運行查詢。我的意思是即使我可以提交查詢,但新查詢只應在上一次完成時纔開始。有什麼方法可以讓查詢逐個運行嗎?

回答

0

所以紗的整個流程/ MR2是遵循

  1. 查詢從HUE蜂巢查詢編輯器提交
  2. 作業啓動和資源管理器上的數據節點
  3. 這個應用程序的主請求的資源,資源管理器一個(例如2 * 1Gib/1啓動應用程序的主核心)
  4. 資源管理器嚮應用程序主機提供這些資源(稱爲nodemanagers,然後運行map和 減少任務)。

所以現在資源分配是由Cloudera的集羣,動態資源池(一種隊列)的YARN.in情況處理就是作業提交和再資源分配是由紗線這些作業完成的地方。默認情況下,最大併發作業的值以這樣的方式設置:資源管理器將所有資源分配給所有作業/應用程序主文件,而不留下任務容器的空間(稍後階段需要由應用程序主文件運行任務)

http://www.cloudera.com/content/cloudera/en/resources/library/recordedwebinar/introduction-to-yarn-and-mapreduce-2-slides.html

因此,如果我們提交大量沒有查詢的HUE蜂巢編輯器,它們將被提交的同時就業和應用的主人爲他們將被分配資源離開任務容器沒有空間,因而所有的作業都將被執行處於未決狀態。

解決辦法是如上述那樣由@Romain

沒有並行作業的相應地設置max的值的大小和簇的能力。在我的情況下,它的值爲4 現在只有4個作業將從池中併發運行,並且它們將由資源管理器分配資源。

1

您可以一次運行所有查詢,並使用';'分隔它們。在HUE。

例如:

Query1; Query2; 查詢3

在這種情況下查詢1,查詢2和查詢3將依次運行