從兩列創建一個元組 - PySpark

我的問題是基於類似的問題PySpark: Add a new column with a tuple created from columns，區別在於我有一列值而不是每列一個值。例如：從兩列創建一個元組 - PySpark

from pyspark.sql import Row 
df = sqlContext.createDataFrame([Row(v1=[u'2.0', u'1.0', u'9.0'], v2=[u'9.0', u'7.0', u'2.0']),Row(v1=[u'4.0', u'8.0', u'9.0'], v2=[u'1.0', u'1.0', u'2.0'])]) 

    +---------------+---------------+ 
    |    v1|    v2| 
    +---------------+---------------+ 
    |[2.0, 1.0, 9.0]|[9.0, 7.0, 2.0]| 
    |[2.0, 1.0, 9.0]|[9.0, 7.0, 2.0]| 
    +---------------+---------------+

我試圖獲得類似於像拉鍊的東西逐元素的每行的名單，但我不能算出它在pyspark 1.6：

+---------------+---------------+--------------------+ 
|    v1|    v2|    v_tuple| 
+---------------+---------------+--------------------+ 
|[2.0, 1.0, 9.0]|[9.0, 7.0, 2.0]|[(2.0,9.0), (1.0,...| 
|[4.0, 8.0, 9.0]|[1.0, 1.0, 2.0]|[(4.0,1.0), (8.0,...| 
+---------------+---------------+--------------------+

注意：數組的大小可能因行而異，但對於同一行按列來說總是相同的。

來源

2017-08-29 Vas

如果數組的大小由行而異行，你需要和UDF：

from pyspark.sql.functions import udf 

@udf("array<struct<_1:double,_2:double>>") 
def zip_(xs, ys): 
    return list(zip(xs, ys)) 

df.withColumn("v_tuple", zip_("v1", "v2"))

在星火1.6：

from pyspark.sql.types import * 

zip_ = udf(
    lambda xs, ys: list(zip(xs, ys)), 
    ArrayType(StructType([StructField("_1", DoubleType()), StructField("_2", DoubleType())])))

來源

2017-08-29 14:36:57 user8371915

從兩列創建一個元組 - PySpark

回答

相關問題