2016-01-25 26 views
1

我想添加時間戳來預訂句子,以適合相關的有聲讀物。 理想地用各種語言。在audibook中爲字幕創建時間戳

下面是一個例子:
傲慢與偏見
text from gutenberg project
audio from Librivox

我的想法是找到一個語音識別工具,使上句時間戳(步驟1),然後映射使用levenshtein距離對原始文本進行混亂的轉錄(步驟2)。

網站https://speechlogger.appspot.com/提供了第1步的解決方案,但它的字符輸出受到限制。我可以在理論上使用網絡自動化來完成工作,每隔一分鐘左右開始一次新的錄音,但它確實很髒。

我在R中編寫了第2步,並在我從speechlogger獲得的樣本上對其進行了測試,它的工作原理還不錯,但如果程序知道文本,就像閱讀培訓語音識別軟件時那樣,這可能會大大改善。我不是通過首先抄錄我的所有信息。

所以我的問題是,我有什麼替代方法可以給音頻文件加上時間戳,並且有沒有辦法讓我的過程變得更聰明,讓識別引擎知道它應該識別的內容?

+0

Moody Mudskipper,我想知道你是否可以提供給我一個Android應用程序,請看[這篇文章](http://cs.stackexchange.com/q/52769/45942)看看我在找什麼。有什麼建議麼?非常感謝。 –

+1

您試圖創建的是我稱之爲「音頻電子書」的內容,其中包含文本和音頻,同步。看一下https://www.readbeyond.it/,在那裏你還可以找到aeneas,這種強制對齊方式適用於這種應用,使用30多種語言。 –

+0

這看起來很神奇阿爾貝託,非常感謝 –

回答

3

有針對各種級別的精度開發了許多很好的軟件包:

Gentle - 基於Kaldi對準,用作一種服務。

舊的實現:

Aligner Demo in Sphinx4 - CMUSphinx工具包在java中

SAIL align - 基於HTK對準,Perl腳本,頗有些包。

+1

非常感謝,似乎「強制排列」真的是我需要的關鍵詞。 –