2012-02-16 105 views
3

我有一套有人在說話的視頻,我正在構建一個脣部識別系統,因此我需要在圖像的特定區域(下顎和嘴脣)上執行一些圖像處理。圖像裁剪 - 感興趣的區域查詢

我有超過200個視頻,每個視頻都包含一個句子。這是自然的談話,因此頭部不斷移動,因此嘴脣不在固定的地方。我很難在圖像中指定我感興趣的區域,因爲它非常煩人,不得不觀看每個視頻並標出我的盒子有多大才能確保嘴脣在ROI內裁剪。

我想知道是否有更簡單的方法來檢查這個,也許使用MATLAB?我想我可以逐幀裁剪視頻並輸出每幀圖像。然後通過圖像去觀察嘴脣是否脫離框架?

+0

當你說「我在想我可以逐幀裁剪視頻」時,你的意思是說MATLAB會神奇地猜測嘴脣在哪裏?或者你會裁剪框架? – Daniyar 2012-03-02 20:48:00

回答

1

我不得不解決一個跟蹤參與視頻課堂討論的學生的頭部和肢體的類似問題。我們使用Thomas Brox(link,參見關於大位移光流的部分)的先進光流跟蹤技術進行了實驗。在我們的例子中,我們有近20TB的視頻可以通過,所以我們別無選擇,使用光流程代碼的C++和GPU實現;我想你會發現Matlab在進行視頻分析方面速度很慢。

光流向您返回詳細的運動矢量。然後,如果您只需在視頻的第一幀中標記嘴巴和下巴的原始邊界框,就可以按照這些像素的光流給出的軌跡進行跟蹤,這通常會給您一個很好的邊界框序列。不過,您可能會遇到必須清理的錯誤。您可以編寫一個Python腳本來播放邊界框序列,以便快速檢查錯誤。

我爲此編寫的代碼是用Python編寫的,它可能不容易適應您的數據設置或您的問題,但是您可以在我的部分中找到基於仿射變換的光流跟蹤代碼linked here '使用密集光流的物體跟蹤器'。

簡而言之,這對於視覺研究者來說是一個非常困難和煩人的問題。大多數人通過將他們的視頻一幀一幀地放到Mechanical Turk上「解決」它,並向他們分析每幀2美分的人力工作者付費。這會給你帶來相當不錯的結果(從Mechanical Turkers收集它們之後,你仍然需要清理它們),但是當你有很多視頻,並且你不能等待足夠的時間隨機分析Mechanical土耳其人。儘管如此,對於感興趣區域註釋,絕對沒有任何'開箱即用'的解決方案。您可能必須爲自動執行此操作的第三方軟件付出相當大的代價。我最好的猜測就是看看face.com會向你收費以及它的表現如何。儘管如此,對於這個或Mechanical Turk來說,請不要違反任何研究人員的保密協議。