apache-spark-dataset

0熱度

1回答

我的輸入數據集看起來像ds [（T，U）]。 T和U都在下面。 T => (key1, key2, ...) and U => (value1, value2, ...) 聚集看起來像 ds.groupBy("key1", "key2", ...) .agg( sum("value1")).alias("value11"), sum("value2")).al

1熱度

1回答

Spark：使用map並使用SparkSql減少

我不應該問這個問題，我真的不想問，但我迷路了。我看到很多以wordcount爲例的教程。但我有問題，瞭解如何與sparkSql 使用它，例如，我有以下查詢 Dataset<Row> totalItem = spark.sql(" select icode from bigmart.o_sales"); 它使我的數據集？現在我可以迭代totalItem和打印結果，但我想要計算該項目發生的次數

2熱度

4回答

如何更改Spark數據集上的模式

當我使用select語句在Spark 2中檢索數據集時，基礎列會繼承查詢列的數據類型。 val ds1 = spark.sql("select 1 as a, 2 as b, 'abd' as c") ds1.printSchema() root |-- a: integer (nullable = false) |-- b: integer (nullable = false) |-

1熱度

1回答

使用SQL火花

計算收入貢獻我有一個表像這樣 item mrp ----- ----- burger 500 burger 500 burger 600 pizza 1000 pizza 1000 pizza 1000 我需要計算漢堡包和比薩餅的收入貢獻。一種方法是首先獲取單個項目的mrp總數並存儲在一個變量中，然後獲得所有項目的總mrp總和，並進行分割。但是這需要遍歷單個項目

1熱度

1回答

火花UDF無法在雙字段的空值

我想寫一個火花UDF，用0.0代替雙字段的空值。我正在使用數據集API。這裏的UDF： val coalesceToZero=udf((rate: Double) => if(Option(rate).isDefined) rate else 0.0) 這是基於我測試了以下功能將被精細的工作： def cz(value: Double): Double = if(Option(value).i

0熱度

1回答

在Apache Spark中將數據框寫入Java中的Hive表格

我正在嘗試完成「將數據框寫入Hive表」的簡單操作，下面是用Java編寫的代碼。我使用Cloudera VM時沒有任何更改。 public static void main(String[] args) { String master = "local[*]"; SparkSession sparkSession = SparkSession .builder(

0熱度

2回答

Spark中的關係轉換

我想使用Spark DataSet加載相當大的數據（比方說），其中的子集數據看起來如下所示。 |age|maritalStatus| name|sex| +---+-------------+--------+---+ | 35| M| Joanna| F| | 25| S|Isabelle| F| | 19| S| Andy| M| | 70| M| Robert| M

-1熱度

2回答

通過分割它

輸入火花數據幀的格式轉換以dataframe1 +-----+---------------+------------------------------------------------------------------------------------------------------------------+ |table| err_timestamp| err_me

0熱度

2回答

WrapedArray的WrappedArray到java數組

我有一個類型集的列，我使用spark數據集API的collect_set()，它返回包裝數組的包裝數組。我想從嵌套包裝數組的所有值中獲取單個數組。我怎樣才能做到這一點？例如， Cassandra表： Col1 {1,2,3} {1,5} 我正在使用Spark數據集API。 row.get(0)返回包裝數組的包裝數組。

1熱度

1回答

火花數據集和方差

語境我已經創建了一個函數，它接受一個Dataset[MyCaseClass]，並返回它的列中的一個的元件的陣列 def columnToArray(ds: Dataset[MyCaseClass], columnName: String): Array[String] = { ds .select(columnName) .rdd .map(row =>