2017-06-01 56 views
0

我有一個數據集,其中因變量是0或1.但是,有大量的0(10倍於1的倍數)。我想知道創建子依賴變量比例相等的子集的最快方法是什麼?在因變量中等分比例0和1的數據拆分

+0

我的數據集很龐大,包含800000行和20個獨立變量以及因變量 –

+0

800000行是什麼意思,是文件還是其他? – gushitong

+0

這是一個數據框,是一個文件 –

回答

0
dataset = [0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] 

subset = [] 

for i in range(sum(dataset)): 
    subset.extend([0, 1]) 

print(subset) 
+0

我的數據集很大,有800000行和20個獨立變量以及因變量。 –

+0

你應該清除你的問題中的所有這些。 @RikinMathur – gushitong