0

做在數據幀有兩個柱數學運算我有數據幀有三個欄的「x」,「y」和「Z」如何使用pyspark

x  y   z 
bn  12452  221 
mb  14521  330 
pl  12563  160 
lo  22516  142 

我需要創建一個是由衍生另一列這個公式

(m = z/y+z) 

因此,新的數據frameshould是這個樣子:

x  y   z  m 
bn  12452  221  .01743 
mb  14521  330  .02222 
pl  12563  160  .01257 
lo  22516  142  .00626 

回答

1
df = sqlContext.createDataFrame([('bn', 12452, 221), ('mb', 14521, 330)], ['x', 'y', 'z']) 
df = df.withColumn('m', df['z']/(df['y'] + df['z'])) 
df.head(2)