apache-spark-dataset

3熱度

1回答

什麼是強類型API和Spark類型的非類型化API？數據集如何與DataFrames相似/不相似？

1熱度

3回答

有什麼辦法來解析使用數據集這裏多JSON文件示例代碼 public static void main(String[] args) { // creating spark session SparkSession spark = SparkSession.builder().appName("Java Spark SQL basic example") .c

2熱度

4回答

如何將行拆分爲Spark DataFrame/DataSet中的不同列？

假設我有數據集，如： Name | Subject | Y1 | Y2 A | math | 1998| 2000 B | | 1996| 1999 | science | 2004| 2005 我想拆分此數據集這樣的行時，Y2列將被淘汰，如： Name | Subject | Y1 A | math | 1998 A | math | 1999 A | math |

15熱度

1回答

Spark 2.0數據集vs DataFrame

從spark 2.0.1開始我有一些問題。我看了很多文件，但至今未能找到足夠的答案：是什麼 df.select("foo") df.select($"foo") 之間的區別做我理解正確的是 myDataSet.map(foo.someVal)是typesafe和wi將不會轉換爲RDD，但保留在DataSet表示中/無額外的開銷（2.0.0的性能）所有其他命令選擇，..只是語法糖。它們不是類型安

6熱度

1回答

火花爲什麼列更改爲可空

爲什麼在執行某些函數後nullable = true？在df中仍然沒有nan值。 val myDf = Seq((2,"A"),(2,"B"),(1,"C")) .toDF("foo","bar") .withColumn("foo", 'foo.cast("Int")) myDf.withColumn("foo_2", when($"foo" === 2 , 1).o

1熱度

1回答

火花時間差

從spark 1.5.x開始，增加了一些便利方法來處理時間。 df.select(datediff($"A", $"B")).show 但是，這會返回天數的差異。是否有任何選擇將其轉換爲不同的時間間隔年份？手動我用 df.select(year($"A")- year($"B")).show 這是不夠好。但如果日期差異更準確地計算，則會更好。包括像顯示的月/日http://howtodo

1熱度

1回答

火花如何確定任務數量？

我在閱讀大量文本文件時由Spark創建的任務數量有點困惑。下面是代碼： val files = List["path/to/files/a/23", "path/to/files/b/", "path/to/files/c/0"] val ds = spark.sqlContext.read.textFile(files :_*) ds.count() 每

1熱度

1回答

火花收集儘可能數組[T]，而不是作爲從數據幀

數組[行]我可以收集這樣使用RDD API的列。 df.map(r => r.getAs[String]("column")).collect 但是，正如我最初使用數據集我寧願不切換API級別。一個簡單的df.select("column).collect返回Array[Row]其中.flatten運營商不再起作用。我怎麼能收集到Array[T e.g. String]直接？

3熱度

1回答

具有正確空性的案例類的Spark模式

對於自定義Estimator的transformSchema方法，我需要能夠將輸入數據框架構與案例類中定義的架構進行比較。通常這可以按如下所述執行，如Generate a Spark StructType/Schema from a case class。然而，錯誤的爲空時：的DF由spark.read.csv().as[MyClass]推斷出真正的模式如： root |-- CUSTOMER

1熱度

2回答

Apache Spark在RDD或基於另一行的數據集中更新一行

我想知道如何基於另一行更新某些行。例如，我有一個像 Id | useraname | ratings | city -------------------------------- 1, philip, 2.0, montreal, ... 2, john, 4.0, montreal, ... 3, charles, 2.0, texas, ... 一些數據我想更新在同一個城市同一