合併後R中的分層隨機抽樣

假設我們有一個包含總體的原始數據集，並且我們有一個合併數據集，該數據集包含與另一個數據集合並後的總體（因此較少的觀察值）。合併後R中的分層隨機抽樣

library(tidyverse) 
set.seed(0) 

population_data <- data.frame(ID = c(1:100), 
        industry = sample(1:10, 100, replace = T), 
        size = log1p(runif(100, 1e+03, 1e+08)), 
        performance = runif(100, -0.10, 0.10)) 

merged_data <- population_data[sample(nrow(population_data), 50), ]

從這個「合併」的數據集，我想借此基於原始數據集人口的某些特性，例如，行業水平stratisfied隨機抽樣。

population_characteristics <- population_data %>% 
    group_by(industry) %>% 
    summarize(avg_industry_size = n()/nrow(population_data), 
      avg_size = mean(size, na.rm = T), 
      avg_performance = mean(performance, na.rm = T))

什麼是採取的「merged_data」對象20個觀測的樣本，使得這一新的樣本匹配的特性儘可能地與那些在「population_characteristics」，通過組合後的最簡單方法行業呢？

來源

2017-09-13 Oscar

在'survey'包中有一個'stratsample'功能 –

每個組需要多少個樣品？ – www

我想有一個新的樣本，其中包含來自合併數據集的x個觀測值，但是這些特徵與原始羣體（工業級別）的特徵相匹配。 – Oscar

@ycw，我查了一下，謝謝。讓我們更容易匹配行業的百分比。

library(tidyverse) 
set.seed(1) 

new_sample_size <- 30 

population_data <- data.frame(ID = rep(1:30, each = 3), 
          industry = rep(sample(1:10), each = 3), 
          value = runif(90)) 

merged_data <- population_data[1:60,] 

characteristics <- population_data %>% 
    group_by(industry) %>% 
    summarize(percentage = round(n()/nrow(population_data) * new_sample_size)) 

complete_data <- merged_data %>% 
    nest(-industry) %>% 
    left_join(characteristics, by = "industry") %>% 
    mutate(sample = map2(data, percentage, sample_n)) %>% 
    unnest(sample)

但是，這並不能確保所有ID都保留在那裏三次（這是可取的）。你有一個想法來確保這一點？

來源

2017-09-13 14:28:35 Oscar

合併後R中的分層隨機抽樣

回答

相關問題