隨機分區與分區然後洗牌

給定一組由相同分佈生成的n個數據點，我想將該集合「隨機分割」爲k個組，每組包含從原始數據集中隨機選擇的n/k個點。或者，我可以首先將輸入數據集分成k個連續的塊，其中第一個塊包含1，...，n/k，第二個塊包含n/k + 1，...，2n/k，等等。然後我「洗牌」每個分區內的數據點。隨機分區與分區然後洗牌

鑑於數據集是從相同的分佈生成的，這兩種方法總是相等嗎？否則，當這兩種方法產生相同的結果時，我們需要什麼假設？

來源

2014-11-03 eelpa

所以數據點是隨機數（或其他數據）？如果它們[獨立且分佈相同]（http://en.wikipedia.org/wiki/Independent_and_identically_distributed_random_variables），那麼您希望的所有內容都將是真實的（並且洗牌將是不必要的）。如果不是，事情會變得更加複雜。 – Teepeemm 2014-11-03 21:30:28

@Teepeemm我剛剛檢查了「獨立且分佈相同」的定義，這似乎是我所期待的。感謝您的幫助。 – eelpa 2014-11-03 21:34:22

顯然它們不是等價的;第二個限制可以在每個分區中執行的值，而第一個不限制。

如果根據「結果」你的意思是什麼完成與這些分區，這將完全依賴於那是什麼，你不提示。

來源

2014-11-03 21:04:44

我想在分區/數據組上訓練分類器的集合。所以我的問題是，如果我使用這些不同的分區技術來訓練兩個分類器集合，它們在預測數據方面是否具有相同的功能？我們需要的一個可能的假設是數據來自一個固定的數據生成過程，因此在第二個方法中，每個分區可以表示整個數據集的人口統計數據。 – eelpa 2014-11-03 21:21:38

如果一種方法在所得到的分區可以比另一種方法更靈活，那麼除非有假設阻止執行靈活性，否則我不會看到兩種方法如何產生相同的結果。你自己的例子假設表明第二種方法可以表示第一種不能的信息，這大概可以用在整個應用程序中。 – 2014-11-04 02:30:15

隨機分區與分區然後洗牌

回答

相關問題