2017-08-01 324 views
0

我目前正在使用Nvidia DIGITS來訓練圖像分類器。我正在下載1,000,000個圖像作爲ILSVRC12數據集的一部分。您可能知道,該數據集由1,000個類組成,每個類有1,000個圖像。問題在於很多圖片都是從Flickr的死鏈接下載的,因此在下面顯示的通用「不可用」圖片中填充了我的數據集的相當部分(大約5-10%)。我計劃通過並刪除此「通用」圖像的每個副本,從而使我的數據集僅包含與每個類相關的圖像。圖像分類器訓練數據中每個類的大小是否必須相等?

此操作會使類的大小參差不齊。他們將不再包含每個1000張圖像。它們每個包含900-1,000張圖像。 每個班的人數是否相等?換句話說,我可以在不影響分類器準確性的情況下刪除這些通用圖像嗎?預先感謝您的反饋意見。
file not available image

回答

0

每個班級的訓練數據的數量不必完全相等。這種或那種10%的差異不會顯着影響訓練過程。
如果您仍然擔心標籤不平衡,則可以考慮使用"InfogainLoss"圖層來彌補缺失的示例。

PS, 您利用所有無效的flickr照片其實都是完全相同的,並根據它們的md5sum自動刪除它們。
有關如何在下載imagenet照片時過濾掉這些圖像的示例,請參閱this answer

相關問題