2015-07-12 23 views
-2

我的數據集看起來移動GroupBys

1 
2 
3 
4 
5 
... 

我有一箇中間步驟,應該做如下因素

1 
1,2 
1,2,3 
1,2,3,4 
1,2,3,4,5 
.... 

最後計算出其平均

1 
1.5 
2 
2.5 
3 
... 

問題 一)有沒有辦法在python/py-spark中實現這個? b)有沒有開箱即用的方法/ api? c)我搜索這種解決方案最接近的是移動平均/滾動平均/移動組。這個操作有術語嗎?

+0

你是什麼意思'計算它的意思'?你計算每一行的平均值嗎? (如果是的話,你已經犯了數學錯誤) – maxymoo

+0

對不起,錯字最大 –

回答

0

在熊貓,這被稱爲expanding_mean

import pandas as pd 
df = pd.Series(range(1,6)) 
s = pd.Series(range(1,6)) 
pd.expanding_mean(s) 
Out[128]: 
0 1.0 
1 1.5 
2 2.0 
3 2.5 
4 3.0 
dtype: float64 

我不知道怎麼你會在星火做到這一點,但是這麼說,我也不能確定這是否是一個「parallelalizable 「任務:因爲每一步都依賴於上一步,所以我不確定如何將其分解爲步驟。

+0

有沒有辦法做到這一點火花。我們是否可以並行執行此操作? –