2017-09-13 56 views
0

在MNIST集上訓練好模型後,我如何將圖像分類爲兩位數?更一般地說,我該如何訓練一個模型來檢測圖像上的任意數量的數字?在MNIST上進行培訓,檢測數字序列?

+1

你已經得到了有關技術信息的答案。我想在討論中添加一個附註。在簡單地對MNIST數據集進行訓練時,您無法做到您想要的(檢測圖像中的更多數字)。您需要更有創意,因爲您可能使用的網絡架構與RCNN有很大不同。 – Umberto

回答

1

有一個叫做「對象檢測」的熱門領域試圖做你想做的事情。一般來說,您可以檢測任何圖像甚至視頻中的任何內容(數字,人物,汽車等)。

在國家的最先進的技術大致可分爲兩類:

  1. Faster-RCNN,它首先提出了很多的候選窗口的關注的對象,然後檢測實際上這些是什麼窗口內。
  2. SSD,與Faster-RCNN相比,它只掃描一次圖像並檢測對象,速度更快但不可靠。

一個衆所周知的實時目標檢測方法是YOLO(只一次的樣子),其中落在SSD類別,並有一個非常令人印象深刻的實時演示here,給你的對象感檢測。搜索這些方法的名稱,你會發現很多滿足你的需求的示例代碼。

如果您只是在尋找數字檢測,也檢查斯坦福的House Number Dataset周圍的工作。但是,請注意,這些作品通常來自五年以前,並不一定會擊敗Faster-RCNN和SSD等通用方法。