的補體我有兩個RDD的: 第一個(用戶ID,MOV ID,評分,時間戳)加入RDD的以導致相交
data_wo_header: RDD[String]
scala> data_wo_header.take(5).foreach(println)
1,2,3.5,1112486027
1,29,3.5,1112484676
1,32,3.5,1112484819
1,47,3.5,1112484727
1,50,3.5,1112484580
和RDD2(用戶ID,MOV ID)
data_test_wo_header: RDD[String]
scala> data_test_wo_header.take(5).foreach(println)
1,2
1,367
1,1009
1,1525
1,1750
我需要加入兩個RDD,這樣加入會刪除RDD1中常見的條目(UserID,Mov ID)。 有人可以指導兩個RDD的scala-spark連接。 另外,我需要一個連接,其中從RDD1派生的新RDD只有公共項目。