2016-05-31 111 views
1

我在apache spark中有2個數據幀。使用另一個數據幀或RDD搜索數據幀

DF 1具有數字顯示和描述......數據的模樣

show_no |描述
a |這是mikey
b |這裏是唐納德
c |瑪麗和喬治回家
d |瑪麗和喬治來到鎮上

和第二數據幀中的字符

字符
喬治
唐納德
瑪麗
米妮

我需要搜索展會說明一個找出哪個顯示哪個字符的特徵...

最終輸出應該看起來像

character | showscharacterisin
george | c,d
donald | b
mary | c.d
minnie |沒有顯示

這些數據集設計簡單,但它表達了我試圖實現的搜索功能。我基本上需要使用另一個數據幀的值來搜索1個數據幀的文本。

這將很容易做在SQL Server內部的udf,我基本上會循環顯示描述每次,並返回顯示沒有使用描述「包含」搜索。

我遇到的問題是我沒有辦法使用數據框來做到這一點。

回答

0

1)我想你應該進一步分解第一個數據集,以便show_no被映射到描述中的每個單詞。 對於e.g第一行可以細分像

show_no | descrip 
a | this 
a | is 
a | mikey 

2)如果需要,您可以從這個過濾掉停用詞。

3)之後,您可以加入「」字符「以獲得最終期望的輸出。

希望這會有所幫助。 Amit