0
我必須根據數據集上的名稱計算年齡和工資組的總和。 請幫助如何查詢數據集?我嘗試使用GroupedDataset,但不知道如何繼續。 由於使用集合和按火花分組數據集api
我必須根據數據集上的名稱計算年齡和工資組的總和。 請幫助如何查詢數據集?我嘗試使用GroupedDataset,但不知道如何繼續。 由於使用集合和按火花分組數據集api
可以註冊JavaRDD prdd作爲表,然後在SQL語句中使用
`數據幀schemaPeople = sqlContext.createDataFrame(prdd,Person.class); schemaPeople.registerTempTable(「people」);
// SQL可以在已註冊爲表的RDD上運行。
數據幀青少年= sqlContext.sql(「SELECT SUM(年齡),SUM(工資)FROM一羣人的名字)
// SQL查詢的結果是DataFrames支持所有的正常RDD operations.`
瞭解更多:http://spark.apache.org/docs/latest/sql-programming-guide.html#running-sql-queries-programmatically
請幫助我瞭解,如果我用這個代碼,然後我使用的數據幀,但我想用數據集來實現它我失去了什麼? – coder