0
我有用戶活動數據在購物平臺的RDD在pyspark爲:找到獨特的元組
USER_ID | product_id | 事件(查看產品,購買,加入購物車等)
事情是可以有多個事件類型相同(user_id,product_id)元組。我想收集同一行中的所有這些事件。
例子:
╔═════════════════════════════════════════════════╗
║ user_id | product_id | Event ║
╠═════════════════════════════════════════════════╣
║ 1 1 viewed ║
║ 1 1 purchased ║
║ 2 1 added ║
║ 2 2 viewed ║
║ 2 2 added ║
╚═════════════════════════════════════════════════╝
我想:
╔════════════════════════════════════════════════╗
║ user_id | product_id | Event ║
╠════════════════════════════════════════════════╣
║ 1 1 {viewed, purchased} ║
║ 2 1 {added} ║
║ 2 2 {viewed, added} ║
╚════════════════════════════════════════════════╝
你看着使用內置'map'和'groupByKey'功能? – jtmingus