如何識別Scala Spark中兩個數組之間的交集？

我有四個數組包含來自四個數據框的列名稱。如何識別Scala Spark中兩個數組之間的交集？

var col1 = df1.columns 
var col2 = df2.columns 
var col3 = df3.columns 
var col4 = df4.columns

它們都是Array [String]。現在的問題是確定那些在所有4個數組中經常出現的列，而那些不是。我想可以從找到兩個數組的交集開始，然後循環它。有任何想法嗎？我們可以將它擴展到N維數組。

這樣的想法是不只是識別路口對面兩個數組，但多個陣列，並找出差異

不是真的這個問題的重複 - OP似乎有興趣相交_column names_，而不是他們的實際值 –

可能的重複[比較Scala Spark中的兩個數組列]（https://stackoverflow.com/questions/44158623/比較兩陣列柱合階火花） – jwvh

您可以創建這些陣列的列表，並使用reduce與intersect功能：

List(col1, col2, col3, col4).reduce((a, b) => a intersect b)

2017-06-21 13:36:49

回答