0
我想創建我的數據框的兩個子集稱爲「數據」。原始數據框包含三個小組/小組:阿富汗,巴西和德國,參加者爲1999 - 2001年三年。基於列條目的數據框中的完整面板的子集
子集ONE應該只包含1999年人口> 500,000的國家。這意味着不僅1999年人口爲< = 500,000的特定行被刪除,而且還包含整個面板/組/國家/地區。
子集TWO應只包含三年內人口平均值> 500,000的面板/組/國家。我認爲這意味着人們首先會創建一個「data $ meanpop」的新變量,然後創建子集。
我曾嘗試過使用子集和dplyr軟件包/函數,但我無法讓它工作。
小例子:
a <- c(rep("Afghanistan",3),
rep("Brazil",3),
rep("Germany",3))
b <- c(1999:2001,1999:2001,1999:2001)
c <- c(520000,510000,530000,20,0,5,NA,7000,1800000)
data <- as.data.frame(cbind(a,b,c))
colnames(data) <- c("country","year","population")
data
country year population
1 Afghanistan 1999 520000
2 Afghanistan 2000 510000
3 Afghanistan 2001 530000
4 Brazil 1999 20
5 Brazil 2000 0
6 Brazil 2001 5
7 Germany 1999 <NA>
8 Germany 2000 7000
9 Germany 2001 1800000
結果子集應該是這樣的:
1 Afghanistan 1999 520000
2 Afghanistan 2000 510000
3 Afghanistan 2001 530000
結果子集兩者應該是這樣的(我沒有在這裏創建一個數據$平均列):
country year population meanpop
1 Afghanistan 1999 520000 520000.00
2 Afghanistan 2000 510000 520000.00
3 Afghanistan 2001 530000 520000.00
7 Germany 1999 <NA> 903500.00
8 Germany 2000 7000 903500.00
9 Germany 2001 1800000 903500.00