我是一個正在學習python的火花。我有一個小問題,在像SQL這樣的其他語言中,我們可以簡單地按指定的列對錶進行分組,然後對它們執行進一步的操作,如sum,count等。我們如何在Spark中做到這一點?在Spark中groupBy的用法
我有一樣的模式:
[name:"ABC", city:"New York", money:"50"]
[name:"DEF", city:"London", money:"10"]
[name:"ABC", city:"New York", money:"30"]
[name:"XYZ", city:"London", money:"20"]
[name:"XYZ", city:"London", money:"100"]
[name:"DEF", city:"London", money:"200"]
比方說,我想通過城市羣這個,然後執行這筆錢對於每個名稱。喜歡的東西:
New York ABC 80
London DEF 210
London XYZ 120
感謝您的回覆。它會讓生活變得更容易,知道如何在spark中執行sql語句。 –