2
我有來自和來自列的數據框。兩個都是國家代碼,它們顯示起始國家和目的地國家。每個組的百分比數和pyspark的關鍵點
+----+---+
|from| to|
+----+---+
| TR| tr|
| TR| tr|
| TR| tr|
| TR| gr|
| ES| tr|
| GR| tr|
| CZ| it|
| LU| it|
| AR| it|
| DE| it|
| IT| it|
| IT| it|
| US| it|
| GR| fr|
有沒有辦法得到一個數據幀,顯示每來源國各目的地國家的百分比,列所有目的地國家代碼?
該百分比必須超出相同國家(行)的總目的地。
例如
+----+---+----+---+----+
|from| tr| it| fr| gr|
+----+---+----+---+----+
| TR|0.6|0.12|0.2|0.09|
| IT|0.3| 0.3|0.3| 0.8|
| US|0.1|0.34|0.3| 0.2|