許多最佳實踐都表明數據應該以HDFS壓縮格式存儲。配置單元中的壓縮如何提高查詢性能?
有明確的性能差異,同時運行一個蜂巢的查詢在包含壓縮的文本文件的表(分塊的每個大約250 MB的gzip文件)對未壓縮的文本文件。
有人能請解釋一下什麼是發生在幕後?
按我的理解,而查詢輸入被分配到映射器的任務,還有一個減壓階段,然後有一個查詢。如果是這樣的話,它如何提供比未壓縮的文本文件更好的性能,因爲它將會產生解壓縮的開銷?
許多最佳實踐都表明數據應該以HDFS壓縮格式存儲。配置單元中的壓縮如何提高查詢性能?
有明確的性能差異,同時運行一個蜂巢的查詢在包含壓縮的文本文件的表(分塊的每個大約250 MB的gzip文件)對未壓縮的文本文件。
有人能請解釋一下什麼是發生在幕後?
按我的理解,而查詢輸入被分配到映射器的任務,還有一個減壓階段,然後有一個查詢。如果是這樣的話,它如何提供比未壓縮的文本文件更好的性能,因爲它將會產生解壓縮的開銷?
有兩個方面這裏涉及到:
數據compressesion已是衆所周知給比未存儲更好的性能,無論是在磁盤使用和查詢性能方面。
您可以導入用gzip壓縮直接放入存儲爲文本文件表中的文本文件。壓縮將被自動檢測並且在查詢執行期間文件將被實時解壓縮。
記錄單獨壓縮每一值,而BLOCK做壓縮前緩存1MB起來(默認)。
嗨!感謝你的回答,它確實解釋了一些事情。我們有一個連接到集羣的SAN存儲。性能瓶頸是否仍然起作用? –
我不是100%知道SAN的人,但是如果SAN在多個映射器和多個縮減器之間的海量數據流中無法改進,那麼它將成爲瓶頸。 – abhiieor