如何平鋪一個pyspark數據框？（火花1.6）

在這裏工作是我的數據：

eDF = sqlsc.createDataFrame([Row(v=1, eng_1=10,eng_2=20), 
         Row(v=2, eng_1=15,eng_2=30), 
         Row(v=3, eng_1=8,eng_2=12)]) 
eDF.select('v','eng_1','eng_2').show() 

+---+-----+-----+ 
| v|eng_1|eng_2| 
+---+-----+-----+ 
| 1| 10| 20| 
| 2| 15| 30| 
| 3| 8| 12| 
+---+-----+-----+

我想 '扁平化' 這個表。也就是說：

+---+-----+---+ 
| v| key|val| 
+---+-----+---+ 
| 1|eng_1| 10| 
| 1|eng_2| 20| 
| 2|eng_1| 15| 
| 2|eng_2| 30| 
| 3|eng_1| 8| 
| 3|eng_2| 12| 
+---+-----+---+

注意，因爲我與星火1.6工作，我不能使用pyspar.sql.functions.create_map或pyspark.sql.functions.posexplode。

來源

2017-10-10 plalanne

使用rdd.flatMap壓扁它：

df = spark.createDataFrame(
    eDF.rdd.flatMap(
     lambda r: [Row(v=r.v, key=col, val=r[col]) for col in ['eng_1', 'eng_2']] 
    ) 
) 
df.show() 
+-----+---+---+ 
| key| v|val| 
+-----+---+---+ 
|eng_1| 1| 10| 
|eng_2| 1| 20|  
|eng_1| 2| 15| 
|eng_2| 2| 30| 
|eng_1| 3| 8| 
|eng_2| 3| 12| 
+-----+---+---+

來源

2017-10-10 14:50:01 Psidom

如何平鋪一個pyspark數據框？ （火花1.6）

回答

相關問題

如何平鋪一個pyspark數據框？（火花1.6）