2016-09-25 39 views
1

我已經在我的HDFS csv文件用的產品,如集合:變換org.apache.spark.rdd.RDD [字符串]爲並行化集合

[56] 
[85,66,73] 
[57] 
[8,16] 
[25,96,22,17] 
[83,61] 

我試圖應用關聯規則算法在我的代碼中。爲此,我需要運行此:

scala> val data = sc.textFile("/user/cloudera/data") 
data: org.apache.spark.rdd.RDD[String] = /user/cloudera/data MapPartitionsRDD[294] at textFile at <console>:38 

scala> val distData = sc.parallelize(data) 

但是,當我提出這個我得到這個錯誤:在序列集合

<console>:40: error: type mismatch; 
found : org.apache.spark.rdd.RDD[String] 
required: Seq[?] 
Error occurred in an application involving default arguments. 
     val distData = sc.parallelize(data) 

我如何可以改變一個RDD [字符串]?

非常感謝!

回答

0

你面對的是簡單的。錯誤向您顯示。

要並行化火花中的對象,您應該添加Seq()對象。並且您正嘗試添加一個RDD[String]對象。

RDD已經並行化,textFile方法通過羣集中的行並行化文件元素。

您可以檢查這裏的方法說明:

https://spark.apache.org/docs/latest/programming-guide.html