2016-03-15 78 views
0

我的目標是從電影預告片中找到標題屏幕。我需要一個服務,可以在視頻中搜索字符串,然後使用該字符串返回幀。很晦澀難懂,有這樣的事情嗎?掃描視頻文本字符串?

例如對於這部電影,我會掃描「香腸黨」,並檢索該框架:

enter image description here

編輯:我發現cloudsight api這實際上除了成本的工作令人望而卻步@假設我需要$ .04每次通話將視頻分成1秒的間隔並掃描每個圖像(每個視頻至少60個電話)。

回答

3

沒有確切的服務,我能找到,但你可以嘗試自己做...

ffmpeg -i sausage_party.mp4 -r 1 %04d.png 
/usr/local/bin/parallel --no-notice -j 8 \ 
    /usr/local/bin/tesseract -psm 6 -l eng {} {.} \ 
    ::: *.png 

這提取一幀第二從視頻文件,然後使用正方體通過提取文本OCR到與圖像幀名稱相同的文件中(例如,0135.txt。但是,根據所使用的字體和視頻文件的質量,您的結果將會發生很大的變化)

您可能會發現它更便宜/更簡單使用類似Amazon Mechanical Turk的東西,尤其是因爲OCR將很難做到這一點omatically。

0

另一個選項可能是您自己使用OpenCV中的場景文本檢測和識別模塊(docs.opencv.org/3.0-beta/modules/text/doc/text.html)來實現此服務。你可以看看this video以瞭解這樣一個系統如何運作。如上所述,準確度取決於電影標題中使用的字體,視頻文件的質量和OCR。

OpenCV依賴於Tesseract作爲底層的OCR,或者,您可以使用OpenCV中的文本檢測和本地化功能(docs.opencv.org/3.0-beta/modules/text/doc/erfilter.html)來查找文字區域,然後使用不同的OCR來執行識別。文本檢測和本地化階段可以完成very quickly因此實現實時性能將主要是選擇一個快速OCR的問題。