我試圖計算位數計算位數高效的算法(可近似具有一定精確度保證或錯誤邊界)一個巨大的數據集(萬億字節的數據)。我如何有效地計算分位數。要求是 1) Can be computed efficiently (one-pass) or in a distributed way (merging)
2) High accuracy (or at least can be controlled)
3) C
我是Hadoop和pig的新手。根據問題我能夠深入研究,直到下面的腳本,但我怎麼能比較個人的薪水與他的部門的平均工資。以下是寫入得到各部門的平均工資腳本 A = LOAD 'Assignment_1_Input.log' USING PigStorage('\t') as (id:int,name:chararray,age:int,salary:int,deptid:int);
B = GRO