問題是類似於(Update) Add index column to data.frame based on two columns創建索引列
這裏我的例子data.frame:
df = read.table(text = 'ID Day Count Count_group
77661 14498 4 5
76552 14498 4 5
37008 14498 4 5
34008 14498 4 5
30004 14497 1 5
30004 14497 1 4
28047 14496 3 4
28049 14496 3 4
29003 14496 3 4
69012 14468 1 4
69007 14467 3 4
69012 14467 3 4
69020 14467 3 4
42003 13896 2 4
42011 13896 2 4
22001 13895 2 4
23007 13895 2 4
28047 14496 3 3
28049 14496 3 3
29003 14496 3 3
69007 14467 3 3
69012 14467 3 3
69020 14467 3 3
48005 14271 2 2
48007 14271 2 2
22001 13895 2 2
23007 13895 2 2
47011 14320 1 2
73005 14319 1 2
73005 14319 1 1', header = TRUE)
的Count
COL顯示ID
值的總和按Day
分組。 Count_group
顯示按Day
和Day -1
分組的唯一Count
值的總和。
我需要創建一個索引列該組Count_group
通過Day
和Day -1
繼df
從高到低的順序(有重複!)。
這裏我預期的輸出:Day
,Day -1
和Day -2
:
df_2 = read.table(text = 'ID Day Count Count_group
30004 14497 1 5
28047 14496 3 5
28049 14496 3 5
29003 14496 3 5
69012 14495 1 5
69007 14467 3 5
69012 14467 3 5
69020 14467 3 5
42003 14466 1 5
42011 14465 1 5
28047 14496 3 4
28049 14496 3 4
29003 14496 3 4
69012 14995 1 4
22001 13895 2 4
23007 13895 2 4
28047 13894 2 4
28049 13894 2 4
42003 14466 1 2
42011 14465 1 2
28047 13894 2 2
28049 13894 2 2
69012 14995 1 1
42011 14465 1 1', header = TRUE)
預期輸出:
ID Day Count Count_group index_col
30004 14497 1 5 1
28047 14496 3 5 1
28049 14496 3 5 1
29003 14496 3 5 1
69012 14495 1 5 1
69007 14467 3 5 2
69012 14467 3 5 2
69020 14467 3 5 2
42003 14466 1 5 2
42011 14465 1 5 2
28047 14496 3 4 3
28049 14496 3 4 3
29003 14496 3 4 3
69012 14995 1 4 3
22001 13895 2 4 4
23007 13895 2 4 4
28047 13894 2 4 4
28049 13894 2 4 4
42003 14466 1 2 5
42011 14465 1 2 5
28047 13894 2 2 6
28049 13894 2 2 6
69012 14995 1 1 7
42011 14465 1 1 8
ID Day Count Count_group index_col
77661 14498 4 5 1
76552 14498 4 5 1
37008 14498 4 5 1
34008 14498 4 5 1
30004 14497 1 5 1
30004 14497 1 4 2
28047 14496 3 4 2
28049 14496 3 4 2
29003 14496 3 4 2
69012 14468 1 4 3
69007 14467 3 4 3
69012 14467 3 4 3
69020 14467 3 4 3
42003 13896 2 4 4
42011 13896 2 4 4
22001 13895 2 4 4
23007 13895 2 4 4
28047 14496 3 3 5
28049 14496 3 3 5
29003 14496 3 3 5
69007 14467 3 3 6
69012 14467 3 3 6
69020 14467 3 3 6
48005 14271 2 2 7
48007 14271 2 2 7
22001 13895 2 2 8
23007 13895 2 2 8
47011 14320 1 2 9
73005 14319 1 2 9
73005 14319 1 1 10
而且3天做相同,但與index_col
分組
你有什麼建議嗎? Stion的? 我希望創建一個通用代碼,可以應用(通過一些調整)到df,df_2和其他具有n天分組變量的data.frames。
我認爲這是在第5行的'df_2'一個錯字,值'日'。它應該是14495,保證14995。 – rconradin
問題與新更新的DF – aaaaa
是否有可能有這樣出頭: '76552 14498 3 4 \ n 37008 14498 3 4 \ n 34008 14498 3 4 \ n 30004 14497 1 4 \ n 30004 14497 1 4' ?那麼計算列「Count」的過程是什麼,因爲它不理解如何通過Count = 1來得到5-6行。 – rconradin