0
我有大約20萬行,看起來像這樣的數據集:隨機樣本,但在列的某些值進行分組
Report ID | Month | Day | Year | Location ID | comments
1 4 1 2015 200 blah blah blah
2 11 3 2014 100 blah blah blah
3 4 5 2015 203 blah blah blah
4 8 30 2012 204 blah blah blah
5 11 5 2013 204 blah blah blah
6 11 1 2015 100 blah blah blah
7 11 10 2013 204 blah blah blah
我需要創建報告ID的隨機樣本是有偶數位置ID的分配,年和月。我知道這不會是一個隨機樣本,但是位置ID相對於某些位置偏差很大,並且有些月份的報告比其他位置更多。
我已經嘗試過R中的各種採樣和子設置技術,但它們似乎都想要將數據集作爲一個整體進行採樣,並且我一直無法找到一種方法,我可以要求樣本提供500報告每個位置的ID。更別說能夠說在這個500的範圍內,我想要平均分配數年和數月。有什麼建議麼?
http://stackoverflow.com/questions/21255366/sample-rows-of-subgroups-from-dataframe-with-dplyr –
你見過[這](HTTP:// stackoverflow.com/questions/23479512/stratified-random-sampling-from-data-frame-in-r)? –
這些讓我在那裏。謝謝! –