2015-07-20 72 views
0

我有一個大型數據集,我試圖爲該數據集中的所有實例估計函數f(x)。以下哪種方法更好?大數據自舉採樣

方法1:從數據集中抽樣N個實例,並使用這些N個實例的引導來估計f(x)。

方法2:大數據集的M個樣本N個實例。然後爲這M個樣本情況中的每一個計算f(x),然後彙總(例如:平均值)結果。

回答

1

沒有一個明確的答案,但是通常使用的更多信息更多有關數據集的信息更好(不易過度擬合)。因此,如果您的決定是「我應該只使用N個樣本,但是內部使用M次,或M * N個不同的樣本」,那麼答案將是「缺少針對具體問題的知識 - 第二個」。

+0

所以我應該將我的數據集分成M個不同的集合,然後從每個集合中取N個樣本,或者我應該從所有數據中取M * N個樣本? – Soroosh

+0

沒有一個明確的答案,因爲下一個問題是「M應該多大?」。一般來說 - 這是一個偏差 - 方差的連續問題。讓我們假設你可以得到K分。然後把M = 1(一大塊數據)導致高方差。另一方面puttin K = M(大量小塊)導致高偏差。兩者之間的一切都將試圖平衡方差和偏差 - 確切的解決方案取決於所使用的特定問題和模型。不幸的是,你將不得不適應這個問題。我會從M的小值開始,比如說2或5,然後從這一點開始。 – lejlot