有沒有一種方法可以根據密鑰比較2對RDDs
的值。
例如:根據scala中的密鑰比較兩對RDD的值
RDD1: RDD[(Int, String)] = {(1, "ABC"), (2, "XYZ"), (3, "PQR")}
RDD2: RDD[(Int, String)] = {(5, "AAA"), (2, "XYZ"), (3, "LMN")}
我的任務是讓存在於rdds
其中值是不同的密鑰數量。
該連接給出了rdd
以及鍵2
和3
。 但我想最終輸出爲3
因爲值不同。
我已經嘗試下面的方法:
var diff = rdd1.join(rdd2).map{case(k,(s1,s2))=> if (s1!=s2) (k,s1)}
這樣我就可以得到差異的計數。但它提供了兩個鍵2
和3
。我想我需要其他條件跳過匹配值。
任何人都可以請建議我如何能達到預期的效果嗎? (或使用任何不同的方法)。