2015-04-01 86 views
1

我是一個hadoop &配置單元的新手。你能否建議在cloudera 5.2.1上運行Apache Hive的性能調整步驟。Hive查詢性能調優

什麼都是爲了提高蜂巢查詢性能

調諧參數

蜂巢版本: - 蜂巢0.13.1-cdh5.2.1

蜂巢查詢: -

選擇不同a1.chain_number chain_number , a1.chain_description chain_description from staff.organization_hierarchy a1;

蜂巢表將作爲一個選項外創建「存儲爲文本格式」和表格屬性如下: -

改變蜂巢下方設置後,我們已經看到10秒的改善

集hive.exec.parallel = TRUE;

除了上面提到的其他設置,您可以提出建議,以改進我正在使用的查詢類型的配置單元查詢性能。

回答

0

您可以使用group by來取代distinct,因爲只有1個減少作業來完成distinct作業。

試試這個

select chain_number, chain_description 
from staff.organization_hierarchy 
group by chain_number, chain_description 

如果減少使用mapred.reduct.tasks配置工作數量仍然非常small.You可以將特定它

0

不是隻有一種方式有很多種方法來optimize Hive performance 1)啓用TEZ執行引擎。 2)使用ORC文件格式 3)使用向量化 4)基於成本的優化 5)使用適當的HQL命令等等。