3

我有一個語音應用程序,如果有能力使用「觸發詞」開始錄製音頻,那麼這個語音應用程序將會有很大的改進。我不需要一個完整的語音文本引擎,只需要能夠可靠/有效地檢測觸發詞。「語音觸發」檢測

我想知道是否有任何專門的語音引擎支持這個特定的用例,或任何庫/方法來開發這樣一個單一用途的檢測引擎。理想情況下,我希望它可以在嘈雜的環境中工作,但可以訓練單個用戶的語音。

指向研究論文/主題也將不勝感激,所以我知道該問什麼。

+0

是否有被說出的話?一個鼓吹或吹口哨會容易得多。 – endolith 2009-11-10 02:22:38

回答

1

好吧,我可以完全脫落,但使用一個全功能的語音識別庫可能是矯枉過正爲您的使用情況..

如果你能帶動考慮這個簡單的東西,但還是進行視頻播放:

檢測手掌是非常簡單的。手掌掌控整個音頻頻段的能量很高。與全面的語音識別相比,檢測它簡單且計算方便得多。

簡而言之,您可以記錄音頻,對數據進行(短時間)FFT並檢測80%的可用頻率箱中有高能量的情況。由於錄音室/麥克風設置簡單,80%可以處理任何階段性問題。然後調整thresold品嚐,你就完成了。

對於語音識別也是可以的,但是您會刻錄CPU週期的

+0

這非常有趣。但是你能用這種方式檢測語言嗎?那是「嘿Siri」和「OK Google」做的嗎? – 2016-07-25 20:00:07

0

什麼是O/S?我想知道是否Speech functionality in Windows Vista會幫助你。對於任何語音分析儀來說,認識到一個單詞似乎是最簡單的問題。

+0

認識到一個單詞會更容易。要識別的關鍵詞或短語越長越容易避免誤報。這就是爲什麼有限語法識別比聽寫更容易和更可靠的原因。 – user57368 2009-05-23 22:54:28

0

就在幾天前有人問到a question關於Linux上的語音識別的可能性。你所要求的是其中的一個子集,我假設其中的一些答案可能包含有用的信息。 joeforker的回答中的文章非常有趣。

+1

解釋爲什麼這是被投票贊成。 – hlovdal 2009-11-11 12:15:04

0

我有一個錄音win32應用程序。我使用OCX來管理錄製/播放。

我知道這不完全是你問的解決方案,但你可能要考慮腳踏板。編程簡單,並且非常像一個口語詞組開始/停止錄音。檢查這些:www.pedalpower.com

希望它能幫助,

雷納爾多。

2

Red5項目中的一位同事創建了一個類似的演示,使用觸發詞來使搜索針對圖像存儲庫運行。說「貓」導致貓出現在約一秒鐘內的圖像。客戶端應用程序使用Flash編寫,後端使用免費的Sphinx庫在Red5上運行。沒有太多努力,你當然可以用獅身人面像做你想做的。
斯芬克斯項目:http://cmusphinx.sourceforge.net/sphinx4/