2016-11-14 50 views
0

想知道,teradata中的SAMPLE是否以統一的概率選擇(即給每行選擇相同的概率)。例如:teradata uniform中的示例命令

select * from employee_table sample 8; 

另外將返回的數據被保證是每個執行

回答

2

每個SAMPLE是隨機的後不同,但使用的默認值不是真正簡單的樣品。所有AMP進行通信以決定將由哪個AMP返回多少行,即默認的SAMPLE是n個分開的樣本的UNION,每個AMP一個。很難注意,因爲數據是散列分佈的,但是具有NUPI的偏斜表可能對某些行被抽樣的概率較高。

當您需要一個真正的隨機樣本時,您必須使用SAMPLE RANDOMIZED ALLOCATION選項,現在所有AMP中的所有行都具有相同的概率。

但是,因爲它是隨機的,當然不能保證每個樣本中都有不同的行。