pySpark以分佈式方式查找中位數？

是否可以通過分佈的方式找到火花中位數？我目前發現：Sum，Average，Variance，Count使用下面的代碼：pySpark以分佈式方式查找中位數？

dataSumsRdd = numRDD.filter(lambda x: filterNum(x[1])).map(lambda line: (line[0], float(line[1])))\ 
    .aggregateByKey((0.0, 0.0, 0.0), 
    lambda (sum, sum2, count), value: (sum + value, sum2 + value**2, count+1.0), 
    lambda (suma, sum2a, counta), (sumb, sum2b, countb): (suma + sumb, sum2a + sum2b, counta + countb)) 
#Generate RDD of Count, Sum, Average, Variance 
dataStatsRdd = dataSumsRdd.mapValues(lambda (sum, sum2, count) : (count, sum, sum/count, round(sum2/count - (sum/count)**2, 7)))

我不太清楚如何找到中位數雖然。爲了找到標準差，我只是用平方根方差做局部結果。一旦我收集到中位數，我就可以輕鬆地在本地進行Skewness。

我在鍵/值對（鍵=列）

來源

2015-04-28 theMadKing

看看[這個問題]（http://stackoverflow.com/questions/28158729/how-can-i-calculate-exact-median-with-apache-spark）。高效的分佈式中值算法並不簡單。 – nrg

我所看在我的數據（它不是最好的方式......但我能想到這樣做的唯一途徑）：

def medianFunction(x): 
    count = len(x) 
    if count % 2 == 0: 
     l = count/2 - 1 
     r = l + 1 
     value = (x[l - 1] + x[r - 1])/2 
     return value 
    else: 
     l = count/2 
     value = x[l - 1] 
     return value 

    medianRDD = numFilterRDD.groupByKey().map(lambda (x, y): (x, list(y))).mapValues(lambda x: medianFunction(x)).collect()

來源

2015-04-28 18:14:41 theMadKing

中間行RDD =以.collect（）結尾。這是故意的嗎？您是否在一些測試數據上測試了這個解決方案？ –

.collect是一種動作，它會做出一些對駕駛員來說不會產生危險的輸出。你關心什麼？ – theMadKing

pySpark以分佈式方式查找中位數？

回答

相關問題