我從spark開始,並且我還沒有理解一些概念。spark - 與鍵值比較
我有雙名像這樣的文件:
foo bar
bar foo
但foo和酒吧之間的相同關係。我試圖創建一個RDD只有一個關係
foo bar
我創建這個代碼:
step1 = joined.reduceByKey(lambda x,y: x+';'+y).map(lambda x: (x[0], x[1].split(';'))).sortByKey(True).mapValues(lambda x: sorted(x)).collect()
創建第一個輸出,和我想我需要另一個reduceByKey以刪除現有值以前的迭代,但我不知道如何做到這一點。
我是否正確思考?
你的意思是在你的文件的記錄已被刪除,因爲它的價值已經存在,作爲一個關鍵第一個記錄? –
@ rogue-one,是的。 –