1
我有一個Spark RDD,看起來像這樣:星火RDD刪除記錄有多個按鍵
[(1, ...),
(1, ...),
(2, ...),
(3, ...)]
,我試圖刪除具有重複鍵的記錄,在這種情況下,我要排除一切記錄有關鍵'1'。而最終輸出我想應該是這樣
[(2, ...),
(3, ...)]
我至今嘗試過,它的工作,但我的直覺說應該有一個更好的解決方案:
>> a = sc.parallelize([(1,[1,1]), (1,[1,1]), (2,[1,1]), (3,[1,1])])
>> print a.groupByKey() \
.filter(lambda x: len(x[1])==1) \
.map(lambda x: (x[0], list(x[1])[0])).collect()
[(2, [1, 1]), (3, [1, 1])]
誰能幫助我在這?其他
你能或者接受的答案或解釋爲什麼它不工作,因此可以改善?在此先感謝:) – zero323
此外,如果你可以看看這個http://stackoverflow.com/q/33157978/1560062如果你沒有找到有用的答案,我會刪除。 – zero323