我有以下訓練數據集,其中第一行顯示屬性的名稱。決策樹學習算法中的重複訓練數據
S_Length, Se_Width, P_Length, P_Width, Predicate
5.1,3.5,1.4,0.2,Ili
4.9,3.0,1.4,0.2,Iri
4.7,3.2,1.3,0.2,Iyr
4.6,3.1,1.5,0.2,Ir
5.0,3.6,1.4,0.2,Po
5.4,3.9,1.7,0.4,II
4.6,3.1,1.5,0.2,Ir
5.0,3.4,1.5,0.2,Imt
4.6,3.1,1.5,0.2,Ir
在上述數據集的第4,7和9行中,數據集是重複的。它如何影響算法?我應該省略重複的數據嗎?
如果我試圖根據包括他們喝的啤酒在內的屬性來預測某個人是否爲彩票贏家,那麼我將包含一個獲得該彩票的Bud飲酒者的一百萬份副本,您認爲會發生什麼? –
這是一個非常現實的例子。所以可以肯定的是,重複的數據集會給節點增加不必要的權重,應該刪除? –