大數據自舉採樣

我有一個大型數據集，我試圖爲該數據集中的所有實例估計函數f（x）。以下哪種方法更好？大數據自舉採樣

方法1：從數據集中抽樣N個實例，並使用這些N個實例的引導來估計f（x）。

方法2：大數據集的M個樣本N個實例。然後爲這M個樣本情況中的每一個計算f（x），然後彙總（例如：平均值）結果。

來源

2015-07-20 Soroosh

沒有一個明確的答案，但是通常使用的更多信息更多有關數據集的信息更好（不易過度擬合）。因此，如果您的決定是「我應該只使用N個樣本，但是內部使用M次，或M * N個不同的樣本」，那麼答案將是「缺少針對具體問題的知識 - 第二個」。

來源

2015-07-20 16:08:54 lejlot

所以我應該將我的數據集分成M個不同的集合，然後從每個集合中取N個樣本，或者我應該從所有數據中取M * N個樣本？ – Soroosh

沒有一個明確的答案，因爲下一個問題是「M應該多大？」。一般來說 - 這是一個偏差 - 方差的連續問題。讓我們假設你可以得到K分。然後把M = 1（一大塊數據）導致高方差。另一方面puttin K = M（大量小塊）導致高偏差。兩者之間的一切都將試圖平衡方差和偏差 - 確切的解決方案取決於所使用的特定問題和模型。不幸的是，你將不得不適應這個問題。我會從M的小值開始，比如說2或5，然後從這一點開始。 – lejlot

大數據自舉採樣

回答

相關問題