2017-07-17 68 views

回答

2

在RDD中,您可以使用contains方法列表中的filter列出。

假設你有dataframe喜歡

+-----+ 
|books| 
+-----+ 
|A | 
|D | 
|B | 
+-----+ 

和列表作爲

val Books_Category = List("A","B","C") 

可以在rdd使用contains作爲

val filteredRDD = df.rdd.filter(x=>Books_Category.contains(x(0))) 
filteredRDD.foreach(println) 

這將導致

[A] 
[B] 

做同樣的RDD本身也同樣

假設我們有RDDlistfilter作爲

val rdd = sc.parallelize(Seq("A", "D", "B", "E", "F")) 
val list = List("A","B","C") 

然後做像我們上面

val filteredRDD = rdd.filter(x => list.contains(x)) 
filteredRDD.foreach(println) 

做將導致

A 
B