0
我有火花數據幀如下圖所示如何比較每個值與pyspark中的每個其他值?
a b
(21 , 23)
(23 , 21)
(22 , 21)
(21 , 22)
我希望有一個數據幀應該是這樣的: -
(21 , 22)
(21 , 23)
(22 , 21)
(22 , 23)
(23 , 21)
(23 , 22)
所以應該考慮爲兩列所有可能的組合。這可以如何實現?
我嘗試過笛卡爾連接,但它花費了太多的時間來處理非常小的數據集。所有其他選擇?
謝謝。