2017-06-13 137 views
0

我們正在尋求部署一個報告解決方案,其中數據存儲在HIVE/Hadoop數據層中,報告層將使用SSRS查詢數據層。支持HIVE ORC格式的索引

現在考慮性能優化,的確是有道理的想給予我們將使用ORC文件格式在HIVE數據層上索引的。

根據如下幾個參考文獻,看起來索引是ORC文件格式固有的嗎?是這樣或者這是不同的。

LanguageManual ORC

我是新來的HIVE/Hadoop的,所以纔會在這裏欣賞任何指針。謝謝!

+0

你不需要ORC使用指數.. 。https://cwiki.apache.org/confluence/display/Hive/IndexDev#IndexDev-CREATEINDEX –

+0

如果您處於Cloudera環境中,Impala中的Parquet會比Hive更高效,但如果您的Hive2使用LLAP, ORC可能會很好。分區也是一個優化... –

+0

感謝您輸入cricket_007,這很好,你提到的「 你不需要ORC使用INDEX ..」。但是,我的問題更多地是因爲我們使用的是ORC格式,以及使用帶ORC格式的索引是否合理,因爲ORC格式本身似乎有一些固有的索引。謝謝。 – Ankur

回答

0

ORC文件中的索引具有不同的用途。從文檔存儲不 通濾波謂詞求給定行

然而在具有索引被設計來優化搜索文件跳過行組內

輕質索引在特定的列上。

Hive索引的目標是提高 表中某些列的查詢速度。如果沒有索引,那麼謂詞 (如WHERE tab1.col1 = 10)的查詢將加載整個表或分區,並處理所有行。但是,如果col1存在索引,則只需要加載和處理文件的一部分即 。

我不知道這是否提高適應您的報告模式,可能不會有很大的幫助共同聚合

我希望它能幫助