2016-08-20 111 views
0

我正在使用SparkR。現在我遇到了使用統計函數(如avg,max等)的問題。首先,我讀像JSON文件:如何在sparkr中使用像avg,max等統計函數

> a <- read.df(sqlContext, "/home/fengchen/mine/mydata/try.json", "json") 

然後,在火花,而不是正常的數據幀ř一個數據幀。我正在嘗試https://spark.apache.org/docs/1.5.1/api/R/的一些功能但是當我使用像avg,max,min這樣的函數時,我什麼都沒有。在RStudio上,它顯示爲:

> avg(aa$pipelat) 
Column avg(pipelat) 

那麼,如何顯示或知道函數的值? 順便說一句,這些函數的參數是數據框工作正常,如agg。我只是不知道如何處理參數是列的函數。

回答

1

head()只返回結果DataFrame的第一行。
rdf <- collect(sdf)
將分佈式Spark DataFrame轉換爲可以顯示的本地R data.frame。

因此,例如在你的第二篇文章中: collect(selectExpr(df,"max(laidyear)","min(type)")) ...將返回所有年份值的結果,而不僅僅是前6行。

0

剛剛得到它。以下格式適用。

head(selectExpr(df,"max(laidyear)","min(type)"))