2017-06-21 74 views
0

我有一個僱員的數據集,該格式是如下(T是指「終止」,A是指「活性」):如何查找哪個期間的統計信息終止值最高?

ID Name StayYears Status Country 
1  John 3.5  T  USA 
2  Mary 2.1  A  USA 
3  Ben  1.7  T  French 
4  Kevin 3.2  T  India 
5  Cindy 2.6  A  French 
6  Jack 3.9  A  USA 
7  Peter 1.3  A  India 
8  Andy 2.7  T  French 
9  David 0.8  A  India 
10 Nick 1.1  A  USA 

統計R法應該使用哪種知道哪個時間段(例如1.5〜2.0年),國家有最高的終止率?

我是R和統計的新手,希望有人能給我指導,非常感謝!

+0

您可以創建使用'cut' stayYears分組變量,通過該變量分組,鄉村,找到狀態,即'庫(dplyr)T的數量; DF1% >%group_by(yearGrp = cut(StayYears,breaks = seq(0,max(StayYears)+0.5,0.5)),Country)%>%summarize(n = sum(Status ==「T」)) – akrun

回答

1

這或許有助於

library(dplyr) 
df1 %>% 
group_by(yearGrp = cut(StayYears, breaks = seq(0, max(StayYears)+0.5, 0.5)), Country) %>% 
summarise(n = mean(Status=="T")) %>% 
ungroup() %>% 
filter(n == max(n))