我在Spark環境和開發中有點新意。Python中的Spark使用元組 - 我如何在加入兩個RDD後合併兩個元組
我有兩個RDDS中,我通過一個木匠合併,那木匠的結果如下:
(u'10611', ((u'Laura', u'Mcgee'), (u'66821', u'COMPLETE')))
(u'4026', ((u'Mary', u'Smith'), (u'3237', u'COMPLETE')))
(u'4026', ((u'Mary', u'Smith'), (u'4847', u'CLOSED')))
如果你看到我有兩個元和鑰匙,我要合併這兩個元組和把它作爲主要的和一個元組,如下所示:
(u'10611', (u'Laura', u'Mcgee', u'66821', u'COMPLETE'))
(u'4026', (u'Mary', u'Smith', u'3237', u'COMPLETE'))
(u'4026', (u'Mary', u'Smith', u'4847', u'CLOSED'))
此外,我怎麼能saveAsTextFile,由製表符分隔之前格式化這個。例如
10611 Laura Mcgee 66821 COMPLETE
4026 Mary Smith 3237 COMPLETE
4026 Mary Smith 4847 CLOSED
我有這樣的事情,但不知道如何與元組訪問:
.map(lambda x: "%s\t%s\t%s\t%s" %(x[0], x[1], x[2], x[3]))
我該怎麼做在pyspark?抱歉,我是在Python新和Spark .... –
這一個工作: '合併= cust_j_orders.map(拉姆達X:(X [0],(X [1] [0] + X [1] [1] )))' –
說實話,我對PySpark並不是很熟悉。我只是假設它是Python的超集,所以Python語法可以工作。 –