支持HIVE ORC格式的索引

我們正在尋求部署一個報告解決方案，其中數據存儲在HIVE/Hadoop數據層中，報告層將使用SSRS查詢數據層。支持HIVE ORC格式的索引

現在考慮性能優化，的確是有道理的想給予我們將使用ORC文件格式在HIVE數據層上索引的。

根據如下幾個參考文獻，看起來索引是ORC文件格式固有的嗎？是這樣或者這是不同的。

LanguageManual ORC

我是新來的HIVE/Hadoop的，所以纔會在這裏欣賞任何指針。謝謝！

來源

2017-06-13 Ankur

你不需要ORC使用指數.. 。https://cwiki.apache.org/confluence/display/Hive/IndexDev#IndexDev-CREATEINDEX –

如果您處於Cloudera環境中，Impala中的Parquet會比Hive更高效，但如果您的Hive2使用LLAP， ORC可能會很好。分區也是一個優化... –

感謝您輸入cricket_007，這很好，你提到的「你不需要ORC使用INDEX ..」。但是，我的問題更多地是因爲我們使用的是ORC格式，以及使用帶ORC格式的索引是否合理，因爲ORC格式本身似乎有一些固有的索引。謝謝。 – Ankur

ORC文件中的索引具有不同的用途。從文檔存儲不通濾波謂詞求給定行

然而在具有索引被設計來優化搜索文件跳過行組內

輕質索引在特定的列上。

Hive索引的目標是提高表中某些列的查詢速度。如果沒有索引，那麼謂詞（如WHERE tab1.col1 = 10）的查詢將加載整個表或分區，並處理所有行。但是，如果col1存在索引，則只需要加載和處理文件的一部分即。

我不知道這是否提高適應您的報告模式，可能不會有很大的幫助共同聚合

我希望它能幫助

來源

2017-06-13 06:33:44 hlagos

支持HIVE ORC格式的索引

回答

相關問題