我有一個表,其中包含id,偏移量,文本。假設輸入: id offset text
1 1 hello
1 7 world
2 1 foo
我想輸出,如: id text
1 hello world
2 foo
我使用: df.groupby(id).agg(concat_ws("",collect_list(text))
但我不知道如何保證文本的順序。我在groupby
我想使用AWS Glue將一些csv數據轉換爲orc。 ETL任務我創建生成以下PySpark腳本: import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.co