2017-02-28 84 views
1

請幫助我,我需要基於5分鐘的時間間隔聚合一個數據集並基於平均函數進行聚合,在這裏您可以找到輸入和期望的輸出。將被高度讚賞,第一列是一個時間戳列,我正在使用Scala語言enter image description here給定時間間隔內的聚合函數spark

回答

2

通常,您可以從每次提取5分鐘桶(例如通過獲取時間戳作爲數字,除以5分鐘並鋪設結果)。

然後你只需做:

df.groupBy("bucket").avg($"value") 
+0

請你更新你的代碼給如何完成它,我只是新的到,所以我可以接受你的答案謝謝你很多 – user7394882

+0

試着做以下幾點: df.withColumn(「bucket」,((unix_timestamp($「time」)/ 300).cast(「long」)* 300).cast(「timestamp」)) –

+0

Thanks for many friend,the last last question for函數平均,我想申請avg在數據集中存在的所有列,列時間除外,它看起來如何? – user7394882

相關問題