隨機樣本，但在列的某些值進行分組

我有大約20萬行，看起來像這樣的數據集：隨機樣本，但在列的某些值進行分組

Report ID | Month | Day | Year | Location ID | comments 
1    4  1 2015  200   blah blah blah 
2   11  3 2014  100   blah blah blah 
3    4  5 2015  203   blah blah blah 
4    8  30 2012  204   blah blah blah 
5   11  5 2013  204   blah blah blah 
6   11  1 2015  100   blah blah blah 
7   11  10 2013  204   blah blah blah

我需要創建報告ID的隨機樣本是有偶數位置ID的分配，年和月。我知道這不會是一個隨機樣本，但是位置ID相對於某些位置偏差很大，並且有些月份的報告比其他位置更多。

我已經嘗試過R中的各種採樣和子設置技術，但它們似乎都想要將數據集作爲一個整體進行採樣，並且我一直無法找到一種方法，我可以要求樣本提供500報告每個位置的ID。更別說能夠說在這個500的範圍內，我想要平均分配數年和數月。有什麼建議麼？

來源

2016-11-30 J.Gorman

http://stackoverflow.com/questions/21255366/sample-rows-of-subgroups-from-dataframe-with-dplyr –

你見過[這]（HTTP：// stackoverflow.com/questions/23479512/stratified-random-sampling-from-data-frame-in-r）？ –

這些讓我在那裏。謝謝！ –

我能用dplyr到達那裏，跟隨着Mr.Joshuagordon留下的評論。

mtcars %>% 
    group_by(cyl) %>% 
    do(sample_n(.,2))

sample rows of subgroups from dataframe with dplyr

來源

2016-12-05 16:36:42

隨機樣本，但在列的某些值進行分組

回答

相關問題