計算Spark scala中幾列的平均值

2017-08-14 513 views 1 likes

我正在尋找一種計算某些統計數據的方法，例如意思是使用Scala在Spark中的幾個選定列。鑑於data對象是我的Spark DataFrame，很容易只計算一列的平均值。計算Spark scala中幾列的平均值

data.agg(avg("var1") as "mean var1").show

另外，我們可以很容易地計算平均交叉列表其他一些列例如： -

data.groupBy("category").agg(avg("var1") as "mean_var1").show

但我們如何計算平均爲列在數據幀列表的值？我試圖運行這樣的事情，但它沒有工作：

scala> data.select("var1", "var2").mean().show 
<console>:44: error: value mean is not a member of org.apache.spark.sql.DataFrame 
     data.select("var1", "var2").mean().show 
           ^

來源

2017-08-14 simtim

回答

這就是你需要做什麼

import org.apache.spark.sql.functions._ 

import spark.implicits._ 
val df1 = Seq((1,2,3), (3,4,5), (1,2,4)).toDF("A", "B", "C") 

data.select(data.columns.map(mean(_)): _*).show()

輸出：

+------------------+------------------+------+ 
|   avg(A)|   avg(B)|avg(C)| 
+------------------+------------------+------+ 
|1.6666666666666667|2.6666666666666665| 4.0| 
+------------------+------------------+------+

這適用於選定列

data.select(Seq("A", "B").map(mean(_)): _*).show()

輸出：

+------------------+------------------+ 
|   avg(A)|   avg(B)| 
+------------------+------------------+ 
|1.6666666666666667|2.6666666666666665| 
+------------------+------------------+

希望這有助於！

來源

2017-08-14 12:11:26

我知道這種方法，但它不正確。它適用於數據框的所有列。 – simtim

請檢查更新後的答案 –

沒錯！現在它工作得很好。我會接受你的回答。謝謝。 – simtim

相關問題

1. 使用Spark Scala計算平均值
2. 計算行平均值，忽略Spark Scala中的NGA
3. 計算平均值並從Scala中的列表中移除
4. Scala中計算列表中元素的平均值
5. Scala - 計算SomeObj.double在列表中的平均值[SomeObj]
6. 計算平均值的平均值
7. 計算平均值？
8. 計算平均值
9. 在SQLite3中計算多列平均值
10. Excel vba計算列的平均值
11. SQLServer計算多列的平均值
12. 推進ORM：計算列的平均值
13. 只計算列的平均值
14. 計算每列的平均值，R
15. 計算陣列平均值的麻煩
16. 計算3d陣列的日平均值
17. 如何計算列的平均值
18. 如何計算列的平均值？
19. 計算dataframe中的空值：scala spark
20. 如何計算陣列平均值
21. 計算平均無最小值，陣列
22. dplyr的刪除函數？計算R中數據幀中幾列的平均值
23. 計算MBPS - 平均值
24. Array summation：計算平均值
25. 計算實際平均值
26. 計算條件平均值
27. Rails計算平均值belongs_to
28. PHP：計算平均值3
29. 如何計算平均值？
30. 計算日期平均值