2017-10-10 151 views
1

有人可以解釋一下使用HCatalog在pigScript中使用蜂巢的哪個文件格式是有效的。阿帕奇豬 - 最佳的蜂巢文件格式

我想知道哪些配置單元文件格式將是有效的,因爲目前我們有一個基於日期的分區配置單元表和基礎文件是一個順序文件。 80天的數據讀取創建了大約70,000個非常龐大的映射器。試圖改變地圖拆分大小爲2GB,並沒有減少很多。

因此,而不是順序文件尋找其他選項,這將減少映射器的數量。每個數據的數據大小爲9GB。

有任何建議或一些靈感?

謝謝。

回答

2

按我的知識ORC是最合適的文件格式爲蜂巢它具有高壓縮比,在讀的大數據量的提高工作效率,也比較快。 ORC存儲爲列並進行壓縮,從而導致讀取的磁盤空間更小。列格式也是蜂巢中向量化優化的理想選擇。