我有兩個數據集加入兩個數據集一樣, (電影名,女演員的名字)和 (電影名,導演的名字)通過使用Scala的火花第一列
我想通過加入他們的行列(電影名稱,女演員的名字,導演的名字)。
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import scala.io.Source
object spark {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf().setAppName("FindFrequentPairs").setMaster("local[2]")
val sc = new SparkContext(sparkConf)
val text1: RDD[String] = sc.textFile(args(0))
val text2: RDD[String] = sc.textFile(args(1))
val joined = text1.join(text2)
我試圖使用'join',但它說'無法解析符號連接'。 你有什麼想法如何加入他們?
這是我的數據集的一部分,(filme name,actress)。
('"Please Like Me" (2013) {Rhubarb and Custard (#1.1)}', '$haniqua')
('"Please Like Me" (2013) {Spanish Eggs (#1.5)}', '$haniqua')
('A Woman of Distinction (1950) (uncredited)', '& Ashour, Lucienne')
('Around the World (1943) (uncredited)', '& Ashour, Lucienne')
('Chain Lightning (1950) (uncredited)', '& Ashour, Lucienne')
你的數據集都是'RDD [字符串]'...你會至少需要它們的格式爲'RDD [(String,String)]'。 – Alec
但是,如果我使用RDD [(String,String)],它表示'RDD [String]的表達式不符合期望的類型RDD [(String,String)]。那麼,我應該轉換文本文件嗎? – tobby
當然會!我的意思是你必須做一些工作來將你的數據集轉換成正確的形式。數據集中的字符串是否爲「」(,)? –
Alec