2016-11-30 44 views
0

我有大約20萬行,看起來像這樣的數據集:隨機樣本,但在列的某些值進行分組

Report ID | Month | Day | Year | Location ID | comments 
1    4  1 2015  200   blah blah blah 
2   11  3 2014  100   blah blah blah 
3    4  5 2015  203   blah blah blah 
4    8  30 2012  204   blah blah blah 
5   11  5 2013  204   blah blah blah 
6   11  1 2015  100   blah blah blah 
7   11  10 2013  204   blah blah blah 

我需要創建報告ID的隨機樣本是有偶數位置ID的分配,年和月。我知道這不會是一個隨機樣本,但是位置ID相對於某些位置偏差很大,並且有些月份的報告比其他位置更多。

我已經嘗試過R中的各種採樣和子設置技術,但它們似乎都想要將數據集作爲一個整體進行採樣,並且我一直無法找到一種方法,我可以要求樣本提供500報告每個位置的ID。更別說能夠說在這個500的範圍內,我想要平均分配數年和數月。有什麼建議麼?

+0

http://stackoverflow.com/questions/21255366/sample-rows-of-subgroups-from-dataframe-with-dplyr –

+0

你見過[這](HTTP:// stackoverflow.com/questions/23479512/stratified-random-sampling-from-data-frame-in-r)? –

+0

這些讓我在那裏。謝謝! –

回答