2014-11-03 83 views
0

給定一組由相同分佈生成的n個數據點,我想將該集合「隨機分割」爲k個組,每組包含從原始數據集中隨機選擇的n/k個點。或者,我可以首先將輸入數據集分成k個連續的塊,其中第一個塊包含1,...,n/k,第二個塊包含n/k + 1,...,2n/k,等等。然後我「洗牌」每個分區內的數據點。隨機分區與分區然後洗牌

鑑於數據集是從相同的分佈生成的,這兩種方法總是相等嗎?否則,當這兩種方法產生相同的結果時,我們需要什麼假設?

+1

所以數據點是隨機數(或其他數據)?如果它們[獨立且分佈相同](http://en.wikipedia.org/wiki/Independent_and_identically_distributed_random_variables),那麼您希望的所有內容都將是真實的(並且洗牌將是不必要的)。如果不是,事情會變得更加複雜。 – Teepeemm 2014-11-03 21:30:28

+0

@Teepeemm我剛剛檢查了「獨立且分佈相同」的定義,這似乎是我所期待的。感謝您的幫助。 – eelpa 2014-11-03 21:34:22

回答

0

顯然它們不是等價的;第二個限制可以在每個分區中執行的值,而第一個不限制。

如果根據「結果」你的意思是什麼完成與這些分區,這將完全依賴於那是什麼,你不提示。

+0

我想在分區/數據組上訓練分類器的集合。所以我的問題是,如果我使用這些不同的分區技術來訓練兩個分類器集合,它們在預測數據方面是否具有相同的功能?我們需要的一個可能的假設是數據來自一個固定的數據生成過程,因此在第二個方法中,每個分區可以表示整個數據集的人口統計數據。 – eelpa 2014-11-03 21:21:38

+0

如果一種方法在所得到的分區可以比另一種方法更靈活,那麼除非有假設阻止執行靈活性,否則我不會看到兩種方法如何產生相同的結果。你自己的例子假設表明第二種方法可以表示第一種不能的信息,這大概可以用在整個應用程序中。 – 2014-11-04 02:30:15