蜂房 - 4表連接

我需要加入4代表和在每個連接條件列是不同蜂房 - 4表連接

數據大小

Table emp - 8T 
Table stu - 10GB 
Table college - 800 MB 
Table address - 2 TB

查詢 -

select a.*,b.*,c.*,d.* from emp a 
Left outer join stu b(a.id=b.id) 
left outer join college c(a.trans_id=c.trans_id and a.emp_id=c.emp_id) 
left outer join address d(a.seq_no=d.seq_no and a.emp_id=d.emp_id)

執行的上述時間查詢太高，因爲使用沉重的數據集。

有什麼辦法來提高性能

來源

2017-05-30 Amit

蜂房的性能可提高使用Tez作爲執行引擎。

根據您是否使用預先安裝的Hive平臺或安裝了vanilla安裝程序，您可能已經或可能不會有Tez。

如果沒有，TEZ安裝說明可以在這裏找到：Install/Deploy Instructions for Tez

爲了使用TEZ你需要前面加上您的查詢： set hive.execution.engine=tez;

在我的測試（3節點羣集）我經歷平均25％的性能提升。

來源

2017-05-30 20:54:18

我們沒有使用tez，也沒有計劃，有沒有其他方法，我嘗試了蜂巢的幾個屬性，但沒有任何工作適合我。 – Amit

有多種方式來調整你的查詢：

使用TEZ引擎。
每個表格都有更好的文件格式，尤其是較大的文件格式。
添加CBO，矢量化屬性
映射器，縮減器，每個映射任務的體積，減少任務，映射輸出壓縮屬性的數量。
您還可以修改您的查詢，使您的最大表格是您的連接查詢中的第二個表格.i.e select a.* from tabA a join tabB b on a.id=b.id。這裏TabB應該大於tabA。

您可以參考this文檔獲取有關優化的更多詳細信息。

來源

2017-05-30 21:41:11

使用TEZ。 Tez執行速度比MR快。

set hive.execution.engine=tez;

嘗試減小每減速器字節。降低這個參數將增加parallelizm（減速機的數量）

hive.exec.reducers.bytes.per.reducer=67108864;

使用矢量

set hive.vectorized.execution.enabled = true; set hive.vectorized.execution.reduce.enabled = true; 4.你的表是非常大的。如果可能的話減少數據量。例如只加入新的/最近更新的記錄。

來源

2017-05-30 22:11:39 leftjoin

蜂房 - 4表連接

回答

相關問題