apache-spark-dataset

    0熱度

    1回答

    我的輸入數據集看起來像ds [(T,U)]。 T和U都在下面。 T => (key1, key2, ...) and U => (value1, value2, ...) 聚集看起來像 ds.groupBy("key1", "key2", ...) .agg( sum("value1")).alias("value11"), sum("value2")).al

    1熱度

    1回答

    我不應該問這個問題,我真的不想問,但我迷路了。我看到很多以wordcount爲例的教程。但我有問題,瞭解如何與sparkSql 使用它,例如,我有以下查詢 Dataset<Row> totalItem = spark.sql(" select icode from bigmart.o_sales"); 它使我的數據集?現在我可以迭代totalItem和打印結果,但我想要計算該項目發​​生的次數

    2熱度

    4回答

    當我使用select語句在Spark 2中檢索數據集時,基礎列會繼承查詢列的數據類型。 val ds1 = spark.sql("select 1 as a, 2 as b, 'abd' as c") ds1.printSchema() root |-- a: integer (nullable = false) |-- b: integer (nullable = false) |-

    1熱度

    1回答

    計算收入貢獻我有一個表像這樣 item mrp ----- ----- burger 500 burger 500 burger 600 pizza 1000 pizza 1000 pizza 1000 我需要計算漢堡包和比薩餅的收入貢獻。一種方法是首先獲取單個項目的mrp總數並存儲在一個變量中,然後獲得所有項目的總mrp總和,並進行分割。但是這需要遍歷單個項目

    1熱度

    1回答

    我想寫一個火花UDF,用0.0代替雙字段的空值。我正在使用數據集API。這裏的UDF: val coalesceToZero=udf((rate: Double) => if(Option(rate).isDefined) rate else 0.0) 這是基於我測試了以下功能將被精細的工作: def cz(value: Double): Double = if(Option(value).i

    0熱度

    1回答

    我正在嘗試完成「將數據框寫入Hive表」的簡單操作,下面是用Java編寫的代碼。我使用Cloudera VM時沒有任何更改。 public static void main(String[] args) { String master = "local[*]"; SparkSession sparkSession = SparkSession .builder(

    0熱度

    2回答

    我想使用Spark DataSet加載相當大的數據(比方說),其中的子集數據看起來如下所示。 |age|maritalStatus| name|sex| +---+-------------+--------+---+ | 35| M| Joanna| F| | 25| S|Isabelle| F| | 19| S| Andy| M| | 70| M| Robert| M

    -1熱度

    2回答

    輸入火花數據幀的 格式轉換以dat​​aframe1 +-----+---------------+------------------------------------------------------------------------------------------------------------------+ |table| err_timestamp| err_me

    0熱度

    2回答

    我有一個類型集的列,我使用spark數據集API的collect_set(),它返回包裝數組的包裝數組。我想從嵌套包裝數組的所有值中獲取單個數組。我怎樣才能做到這一點? 例如, Cassandra表: Col1 {1,2,3} {1,5} 我正在使用Spark數據集API。 row.get(0)返回包裝數組的包裝數組。

    1熱度

    1回答

    語境 我已經創建了一個函數,它接受一個Dataset[MyCaseClass],並返回它的列中的一個的元件的陣列 def columnToArray(ds: Dataset[MyCaseClass], columnName: String): Array[String] = { ds .select(columnName) .rdd .map(row =>