如何根據時間使用pyspark SQL獲取累計值？

我有一個這樣的表：如何根據時間使用pyspark SQL獲取累計值？

在此表中，artist_id代表一個特定的歌手，Ds是一個日期（從2015年3月1至4月底），並like是多少人喜歡這個歌手在這一天的歌曲。我想獲得like的累計值，例如，在20150303的那一天，該值將是原始值20150301和20150302與20150303的總和。我該如何製作它？

來源

2017-04-04 Liu Chong

您可以使用spark提供的聚合函數並獲取輸出。

你的問題說，根據時間，但按照架構，其實際日期的一列，因此您彙總計算Ds並獲得like類似總和

df.groupBy("Ds").sum("like")

更新：要獲得總和所有天以前所提供的日期，Reduce可以申請filter爲所提供的日期來獲取這和以前的日期結果，然後總結所有使用reduce或聚合函數後使用sum

更多可以發現的詳細信息here

來源

2017-04-04 07:11:13 vinay

groupBy'Ds'然後總和只能得到一天的數據總和，但我想總結一天之前和今天之前的所有天數據。 –

更新了答案，希望它有幫助。 – vinay

對不起，我沒有看到你更新的答案.... –

如何根據時間使用pyspark SQL獲取累計值？

回答

相關問題