2016-04-14 138 views
2

可以說,我有一個像如何訪問pyspark中的RDD元組中的單個元素?

[(u'Some1', (u'ABC', 9989)), (u'Some2', (u'XYZ', 235)), (u'Some3', (u'BBB', 5379)), (u'Some4', (u'ABC', 5379))]

一個RDD我使用map得到一次一個元組,但我怎麼能獲得一個元組的單個元素要看看一個元組包含了一些字符。其實我想過濾出那些包含一些字符的東西。這裏包含ABC

元組我試圖做這樣的事情,但它不是幫助

def foo(line): 
    if(line[1]=="ABC"): 
      return (line) 


new_data = data.map(foo) 

我新的火花和Python以及請幫助!

回答

3

RDD可以直接過濾。下面將給出所有包含元組第二元素第0位的「ABC」的記錄。

new_data = data.filter(lambda x: x[1][0] == "ABC")