這個問題可能已被回答,但我沒有找到一個簡單的答案。我創建了一個使用Keras對Simpsons字符進行分類的小網絡(dataset here)。
我有20個類,並提供一個圖像作爲輸入,我返回字符名稱。這很簡單。我的數據集包含圖片中帶有主要字符的圖片,並且只有字符的名稱作爲標籤。使用Keras進行目標檢測:快速R-CNN或YOLO的簡單方法
現在我想添加一個對象檢測問題,即在圖片中的字符周圍繪製邊界框並預測它是哪個字符。我不想使用滑動窗口,因爲它非常慢。所以我想過使用更快的RCNN(github repo)或YOLO(github repo)。我是否必須爲每個訓練集的圖片添加邊界框的座標?有沒有辦法做對象檢測(並在我的測試中獲得邊界框)而不給出訓練集的座標?總之,我想創建一個簡單的對象檢測模型,我不知道是否有可能創建一個更簡單的YOLO或更快的RCNN。
非常感謝您的幫助。