2011-12-05 123 views
0

我在數字識別中遇到問題。在特徵提取部分,我必須使用一些卷積掩模(如link中的圖4.23)來獲取特徵映射和OUTPUT。然而,我不需要什麼樣的面具以及如何獲得面具? (在一些論文中,也許他們使用了後向傳播,但我不知道如何使用它)你能告訴我一些在這部分中使用的口罩,或者如何獲得它們? 非常感謝!任何建議是歡迎!使用卷積神經網絡進行特徵提取?

+0

如果您有答案,請將您的問題標記爲已關閉。 – amrfaissal

+0

sr,但實際上,我仍然感到困惑! –

回答

0

反向傳播是關於在設置架構之後訓練您的神經網絡。我從來沒有使用神經網絡進行數字識別問題,但這裏有一個關於識別手寫數字的鏈接:link。它有一些代碼示例。

祝你好運。

+0

只是好奇,如果不是神經網絡,你會如何使用OCR? –

0

在CNN中,您通常會有一個2D圖像作爲輸入數據,比如像MNIST中的黑色&白色28x28x1(水平,垂直,通道)數字。

然後,創建一個2D內核(作爲示例的3×3的內核)上滑動以限定步幅(它移動多少像素(水平)/垂直每個步驟)和填充所述輸入圖像的像素比(多少值爲0的像素添加到所有邊以使滑動核心能夠在到達其邊界時覆蓋圖像的每個像素)。假設使用的Kernel = 3x3,Padding = 1,Stride = 1。

此內核在滑動時應用於卷積,也會生成28x28圖像,其中每個像素是內核與輸入圖像的不同區域的卷積。

如果不是隻有一個內核,您可以創建其中的16個,在卷積之後,您將獲得16個28x28圖像,每個圖像表示圖像的不同「模式」。 「模式」是每個內核中的內容。

通過監督訓練中的反向傳播,CNN將自動學習放入每個內核的值。例如,一個內核可以有格式

這意味着它會檢測水平線。

我認爲內核是你所說的掩碼

最後,所有16個28x28圖像可以連接在一起形成一些特徵,可以用作完全連接層的輸入來獲得分類輸出。

請注意,這個解釋是相當簡單的,因爲它跳過了一些段落(深卷積,合併等等),但是我希望它能滿足你的疑惑。