每個組的百分比數和pyspark的關鍵點

我有來自和來自列的數據框。兩個都是國家代碼，它們顯示起始國家和目的地國家。每個組的百分比數和pyspark的關鍵點

+----+---+ 
|from| to| 
+----+---+ 
| TR| tr| 
| TR| tr| 
| TR| tr| 
| TR| gr| 
| ES| tr| 
| GR| tr| 
| CZ| it| 
| LU| it| 
| AR| it| 
| DE| it| 
| IT| it| 
| IT| it| 
| US| it| 
| GR| fr|

有沒有辦法得到一個數據幀，顯示每來源國各目的地國家的百分比，列所有目的地國家代碼？

該百分比必須超出相同國家（行）的總目的地。

例如

+----+---+----+---+----+ 
|from| tr| it| fr| gr| 
+----+---+----+---+----+ 
| TR|0.6|0.12|0.2|0.09| 
| IT|0.3| 0.3|0.3| 0.8| 
| US|0.1|0.34|0.3| 0.2|

來源

2016-11-25 belonious

您可以與count並調整結果。首先是一些進口：

from pyspark.sql.functions import col, lit, coalesce 
from itertools import chain

查找層次：

levels = [x for x in chain(*df.select("to").distinct().collect())]

pivot：

pivoted = df.groupBy("from").pivot("to", levels).count()

compute行數表達：

row_count = sum(coalesce(col(x), lit(0)) for x in levels)

創建調整名單編列：

adjusted = [(col(c)/row_count).alias(c) for c in levels]

和select：

pivoted.select(col("from"), *adjusted)

來源

2016-11-25 13:37:21 user6910411

每個組的百分比數和pyspark的關鍵點

回答

相關問題