0

我想查找作爲輸入給出的任何網頁中特定單詞的出現次數。 我使用金字塔滑動窗口,在那裏我生成所有滑動窗口的HOG(梯度直方圖)功能。現在,我將所有窗口的HOG特徵與我想提取的單詞的HOG特徵進行比較。爲了比較兩個HOG特徵向量,我只對所有的i求和(vector1(i) - vector2(i))。使用HOG特徵和滑動窗口在網頁中查找特定單詞

但是,結果低於預期。

我的查詢是,可以有一個更好的比較系統,用於比較每個窗口的HOG特徵與我想查找的單詞的HOG特徵。 或者我應該訓練一個類似SVM的分類器,以對窗口的HOG特徵進行分類。

爲了訓練分類器,我可以爲我想在我的數據集中找到的單詞設置最多100-200個元素。而對於SVM來說,數據集中最好有相同數量的真假數據元素,如何限制非字表示(假元素)爲100-200。 在訓練組非字數據元,我有:

1. ICDAR-2003 (this word data-set do not contain the word I want to extract) 

2. CIFAR image data set 

的原因,我沒有解壓/在HTML代碼中找到這個字,是因爲這個詞可以在圖像中也會發生。

此外,由於我想查找的單詞是固定的,因此我應該在數據集中包含多少個單詞圖像。

回答

0

如果你有固定的字體,只尋找特定的詞,這裏是簡單的解決方法:

https://stackoverflow.com/a/9647509/8682088

你要提取字框,它調整到例如40×10像素。灰度像素值可能是您的特徵向量。然後你可以訓練你的SVM。這是原始的,但令人驚訝的有效。

它固定字體和簡單的符號工作得很好。

+0

嘿!那就是問題所在。我想訓練SVM,但我對數據集感到困惑。真正的訓練例子可以是我想要搜索的單詞的多個表示(儘管它們幾乎相同)。然而,錯誤的訓練示例可以是任何東西,彩色或白色背景,圖像組件,其他詞等。因此,雖然我可以限制正面數據量(例如200-300個示例/圖像),但我如何選擇負面數據這不是我想要搜索的單詞) – user8788828

相關問題