2017-06-21 85 views
0

我有四個數組包含來自四個數據框的列名稱。如何識別Scala Spark中兩個數組之間的交集?

var col1 = df1.columns 
var col2 = df2.columns 
var col3 = df3.columns 
var col4 = df4.columns 

它們都是Array [String]。現在的問題是確定那些在所有4個數組中經常出現的列,而那些不是。 我想可以從找到兩個數組的交集開始,然後循環它。有任何想法嗎 ?我們可以將它擴展到N維數組。

這樣的想法是不只是識別路口對面兩個數組,但多個陣列,並找出差異

+2

不是真的這個問題的重複 - OP似乎有興趣相交_column names_,而不是他們的實際值 –

+2

可能的重複[比較Scala Spark中的兩個數組列](https://stackoverflow.com/questions/44158623/比較兩陣列柱合階火花) – jwvh

回答

2

您可以創建這些陣列的列表,並使用reduceintersect功能:

List(col1, col2, col3, col4).reduce((a, b) => a intersect b) 
相關問題