2010-05-04 118 views
2

當您爲Adaboost算法的訓練數據使用Haar-like特徵時,如何構建數據集?你是否真的需要找到成千上萬的正面和負面的樣本?必須有一個更有效的方式做到這一點...機器學習 - 培訓步驟

我想分析圖像在matlab(不是臉),並且是相對較新的圖像處理。

+1

嘗試添加標籤'machine-learning'和'image-processing' – Geoff 2010-05-04 13:34:25

回答

4

是的,你確實需要許多正面和負面的訓練樣本。對於Adaboost來說尤其如此,Adaboost通過重複採樣訓練集來工作。很難說出多少樣品就夠了。但一般來說,越好越好,因爲這會增加您的訓練集具有代表性的機會。

另外,在我看來,你對效率的追求是錯位的。培訓提前完成,大概是脫機。培訓完成後對未知實例進行分類的效率是人們通常擔心的。

0

毫無疑問,更多的數據,更多的信息,更好的結果。您應該儘可能包含更多信息。但是,您可能需要注意的一件事是正集與負集之比。對於logistic迴歸,比率不應超過1:5,對於adaboost,我不確定結果,但肯定會隨着比例(我之前嘗試過)而改變。

0

是的,我們需要許多正面和負面的訓練樣本,但收集這些數據非常繁瑣。但是,您可以通過拍攝視頻而非圖片並使用ffmpeg將這些視頻轉換爲圖片來簡化操作。這將使訓練部分更容易。

0

具有相同的正面和負面樣品的唯一原因是避免偏見。有時你可能會得到較高的準確性,但完全不能對一個類別進行分類。爲了評估這樣的方法,精度/回憶比精度更有用。