apache-spark-dataset

8熱度

1回答

我還在努力理解最近推出的Spark Datasets的全部功能。是否存在何時使用RDD以及何時使用數據集的最佳做法？在他們的announcement Databricks解釋說，通過使用數據集可以實現運行時間和內存的大幅減少。儘管如此，還是聲稱數據集的設計與現有的RDD API一起工作。這只是對向下兼容性的參考，或者是否有情況下人們更喜歡使用數據集上的RDD？

13熱度

3回答

Spark數據集API - 加入

我正在嘗試使用Spark Dataset API，但我在執行簡單連接時遇到了一些問題。比方說，我有兩個數據集字段：date | value，然後在DataFrame的情況下，我加入會是什麼樣子： val dfA : DataFrame val dfB : DataFrame dfA.join(dfB, dfB("date") === dfA("date")) 然而，對於Dataset存

0熱度

1回答

如何在Spark數據集中創建一個TypedColumn並對其進行操作？

我正在嘗試使用mapGroups執行聚合，它返回SparseMatrix作爲其中一列，然後對列進行求和。我爲映射行創建了一個case class模式以提供列名稱。矩陣列輸入org.apache.spark.mllib.linalg.Matrix。如果在執行彙總（select(sum("mycolumn")）之前未運行toDF，則會出現一個類型不匹配錯誤（required: org.apache.

9熱度

2回答

爲什麼使用案例類編碼JSON時出現錯誤「無法找到存儲在數據集中的類型的編碼器」？

我已經寫了火花的工作： object SimpleApp { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Simple Application").setMaster("local") val sc = new SparkContext(conf) val ct

4熱度

1回答

如何使用spark組數據集

我正在使用Spark Dataset（Spark 1.6.1版本）。下面是我的代碼 object App { val conf = new SparkConf() .setMaster("local") .setAppName("SparkETL") val sc = new SparkContext(conf) sc.setLogLevel("ERROR") val sqlCo

0熱度

1回答

如何重命名通過Apache Spark中的GroupedDataset操作創建的新列？

如何在不將結果轉換爲DataFrame的情況下重命名count操作的列？ case class LogRow(id: String, location: String, time: Long) case class KeyValue(key: (String, String), value: Long) val log = LogRow("1", "a", 1) :: LogRow("1",

4熱度

3回答

如何從自定義類Person創建數據集？

我試圖在Java中創建Dataset，所以我寫了下面的代碼： public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset = sqlContext.create

4熱度

1回答

如何在Apache Spark數據集中爲枚舉列編寫case類？

story1, 10, small story2, 20, medium sotry3, 3, small story4, 50, xlarge 我想將我的數據轉換爲數據集。我有一個專欄名稱storyType（小，中，大，大）。所以我不知道該怎麼寫我的情況類在這種情況下 case class Story(name:String, point: Int, storyType: ???)

2熱度

1回答

Spark中數組的數據集（1.6.1）

所以我一直在嘗試重新格式化一個我正在使用Dataset API的項目，並且一直存在一些編碼錯誤的問題。從我讀過的內容來看，我認爲我應該能夠將原始值的數組存儲在數據集中。但是，下面的類給我的編碼錯誤： case class InvertedIndex(partition:Int, docs:Array[Int], indices:Array[Long], weights:Array[Double])