我仍在學習配置單元。爲了理解蜂巢中的桶的概念,我已經提到了幾本書。我學到的是,如果我們強制分組,它將創建與桶數相同的文件數量。 在我的情況,我將逐步加載數據分時段表,每天五次。 例如:如果我有16個桶的表,那麼每個負載將基於散列/樣本創建16個文件。所以完全5次運行,將創建80個文件。 My Question is , if i have table with 16 buckets defined
我將使用下列選項 set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;
兩個表必須被分時段和分類等,以執行