2017-06-14 42 views
0

考慮下面的數據框:總單列的跨行在星火基於條件的數據幀

+-------+-----------+-------+ 
| rid| createdon| count| 
+-------+-----------+-------+ 
| 124| 2017-06-15|  1 | 
| 123| 2017-06-14|  2 | 
| 123| 2017-06-14|  1 | 
+-------+-----------+-------+ 

我需要添加具有createdonrid都是相同的行中count列。

因此所得到的數據框應該如下:

+-------+-----------+-------+ 
| rid| createdon| count| 
+-------+-----------+-------+ 
| 124| 2017-06-15|  1 | 
| 123| 2017-06-14|  3 | 
+-------+-----------+-------+ 

我使用星火2.0.2。

我已經嘗試過agg,條件內選擇等,但無法找到解決方案。誰能幫我?

回答

1

試試這個

import org.apache.spark.sql.{functions => func} 
df.groupBy($"rid", $"createdon").agg(func.sum($"count").alias("count")) 
+0

輝煌。它的工作。謝謝。 – Karthikeyan

0

這應該做你想要什麼:

import org.apache.spark.sql.functions.sum 

df 
.groupBy($"rid",$"createdon") 
.agg(sum($"count").as("count")) 
.show