0
一個數據幀的最頻繁的價值觀我很熟悉,我使用的功能「模式」和「GROUPBY」來獲得最頻繁的值,比如熊貓數據幀以下如何讓PySpark
df3=df5.groupby(['band']).apply(lambda x: x.mode())
但是我我在PySpark遇到一些困難。
我有一個火花的數據幀如下:
band A3 A5 status
4G_band1800 12 18 TRUE
4G_band1800 12 18 FALSE
4G_band1800 10 18 TRUE
4G_band1800 12 12 TRUE
4g_band2300 6 24 FALSE
4g_band2300 6 22 FALSE
4g_band2300 6 24 FALSE
4g_band2300 3 24 TRUE
我要的是如下:
band A3 A5 status
4G_band1800 12 18 TRUE
4g_band2300 6 24 FALSE
我已經嘗試了所有可能的組合但沒有得到任何合理的產出。 請建議一種方式。
可你,其他人可以理解的格式共享您的輸入數據? – mtoto
嗨,我更新了使用圖像的問題..圖像一個是輸入的數據幀和圖像2我想輸出 –
沒有圖像請 – mtoto