2017-08-04 45 views
-3

有沒有什麼方法可以讓我經歷了一系列的視頻在這裏列出:在視頻中查找特定的口語單詞嗎?

http://archive.org/details/trumparchive&tab=collection

,並找到他們講了話與時間匹配特定的詞?

背景
我試圖做一個編譯某種機器人,所以我最初的想法是找一個系列成績單(最好包含講話的成績單與在近似時間數據庫哪些詞是說出來的),然後使用一個程序來查找視頻,用所說的詞切出剪輯,然後將所有剪輯編譯成一個視頻。

+0

歡迎來到StackOverflow。避免downvotes記住...這個網站是關於**編程**問題。你需要開始一些事情並且在代碼中遇到問題才能獲得建議(一個_overflow_會導致計算機崩潰)。標記使用的編碼語言,顯示未按預期工作的代碼,等等...... –

回答

0

」 ......有什麼辦法,我可以去通過一系列的視頻在這裏列出:

http://archive.org/details/trumparchive&tab=collection

並找到在此,他們 時間匹配特定的詞說?」

如果視頻有它的字幕文件(如:一個SRT或WebVTT插入文件),它可能是可能的。

注:
下下面是手工完成的,但練習之後,你可以只寫一個程序自動做...

縱觀列出的項目: http://archive.org/details/trumparchive&tab=collection

我們可以挑一個:The O'Reilly Factor : FOXNEWSW : February

並檢查(HTML)的源代碼,看是否有.srt.vtt文件中列出:

href="/download/FOXNEWSW_20170207_040300_The_OReilly_Factor/FOXNEWSW_20170207_040300_The_OReilly_Factor.align.srt" 

所以發現字幕位於:
https://archive.org/download/FOXNEWSW_20170207_040300_The_OReilly_Factor/FOXNEWSW_20170207_040300_The_OReilly_Factor.align.srt

以下是文字的樣本。現在你知道他們說話的視頻中的文字和具體時間。

1 
00:00:00,0 --> 00:00:04,570 
A "WASHINGTON TIMES" REPORTER. 
TONIGHT, WE HAVE A NUMBER OF 

2 
00:00:04,572 --> 00:00:03,482 
SUBJECTS THAT WE PRESENTED TO PRESIDENT 
TRUMP. 

3 
00:00:03,484 --> 00:00:09,479 
HERE THEY ARE. LET'S TALK ABOUT 
IRAN, YOUR 

4 
00:00:09,481 --> 00:00:14,261 
ASSESSMENT, DO YOU THINK WE ARE 
ON A COLLISION COURSE WITH THE 

5 
00:00:14,263 --> 00:00:16,463 
-- WITH THATED COUNTRY? PRESIDENT 
TRUMP: I THINK IT 

6 
00:00:16,465 --> 00:00:18,221 
WAS THE WORST DEAL I EVER SEE NEGOTIATED. 

7 
00:00:18,223 --> 00:00:19,841 
IT WAS IT DEAL THAT NEVER SHOULD 
HAVE BEEN NEGOTIATED. 
+0

非常感謝!這幫了一大筆錢。 –