2017-04-04 60 views
1

我有一個這樣的表:如何根據時間使用pyspark SQL獲取累計值?

enter image description here

在此表中,artist_id代表一個特定的歌手,Ds是一個日期(從2015年3月1至4月底),並like是多少人喜歡這個歌手在這一天的歌曲。 我想獲得like的累計值,例如,在20150303的那一天,該值將是原始值20150301和20150302與20150303的總和。 我該如何製作它?

回答

1

您可以使用spark提供的聚合函數並獲取輸出。

你的問題說,根據時間,但按照架構,其實際日期的一列,因此您彙總計算Ds並獲得like類似總和

df.groupBy("Ds").sum("like") 

更新: 要獲得總和所有天以前所提供的日期,Reduce可以申請filter爲所提供的日期來獲取這和以前的日期結果,然後總結所有使用reduce或聚合函數後使用sum

更多可以發現的詳細信息here

+0

groupBy'Ds'然後總和只能得到一天的數據總和,但我想總結一天之前和今天之前的所有天數據。 –

+0

更新了答案,希望它有幫助。 – vinay

+0

對不起,我沒有看到你更新的答案.... –

相關問題