我有兩個數據集,每個數據集都有兩個元素。 下面是一些例子。如何通過scala中的鍵加入兩個數據集spark
數據1:(名稱,動物)
('abc,def', 'monkey(1)')
('df,gh', 'zebra')
...
數據2:(姓名,水果)
('a,efg', 'apple')
('abc,def', 'banana(1)')
...
結果預期:(姓名,動物,水果)
('abc,def', 'monkey(1)', 'banana(1)')
...
我想要通過使用第一列「名稱」來加入這兩個數據集。我試圖做幾個小時,但我無法弄清楚。誰能幫我?
val sparkConf = new SparkConf().setAppName("abc").setMaster("local[2]")
val sc = new SparkContext(sparkConf)
val text1 = sc.textFile(args(0))
val text2 = sc.textFile(args(1))
val joined = text1.join(text2)
上面的代碼不工作!
你在哪裏拆分輸入文本到'(鍵,值)'元組? – maasg
你會得到什麼樣的錯誤?它告訴你什麼? – maasg
@maasg它說''無法解析符號連接。' – tobby