我有這樣如何根據百分比劃分數據集?
ID var value
9442000 a 2.01
9442000 v 2.2
9442000 h 5.3
9442000 f 0.2
9442000 s 0.55
9442000 t 0.6
952001 d 0.22
952001 g 0.44
952001 g 0.44
952001 h 0.77
652115 a 4.66
652115 d 1.55
652115 s 2.55
652115 s 2.55
我想這分成兩個dataframes用於校準(75%)和驗證(25%)的數據集。爲整體做這件事很簡單,但我想要做到這一點。所以基本上,我想確保75%的EACH ID進行校準。例如,對於ID ,我想將任何四個事件(隨機)放入校準中,將2放入驗證數據幀中。
預期輸出:
*Calibration*
ID var value
9442000 a 2.01
9442000 v 2.2
9442000 h 5.3
9442000 f 0.2
952001 d 0.22
952001 g 0.44
952001 g 0.44
652115 a 4.66
652115 d 1.55
652115 s 2.55
而且
*validation*
ID var value
9442000 s 0.55
9442000 t 0.6
952001 h 0.77
652115 s 2.55
要隨機樣本,您可以用'樣品(長度(X))',而不是'seq_along(X)'在函數中。 – 2015-02-25 00:56:24