「語音觸發」檢測

我有一個語音應用程序，如果有能力使用「觸發詞」開始錄製音頻，那麼這個語音應用程序將會有很大的改進。我不需要一個完整的語音文本引擎，只需要能夠可靠/有效地檢測觸發詞。「語音觸發」檢測

我想知道是否有任何專門的語音引擎支持這個特定的用例，或任何庫/方法來開發這樣一個單一用途的檢測引擎。理想情況下，我希望它可以在嘈雜的環境中工作，但可以訓練單個用戶的語音。

指向研究論文/主題也將不勝感激，所以我知道該問什麼。

來源

2009-05-23 sehugg

是否有被說出的話？一個鼓吹或吹口哨會容易得多。 – endolith 2009-11-10 02:22:38

好吧，我可以完全脫落，但使用一個全功能的語音識別庫可能是矯枉過正爲您的使用情況..

如果你能帶動考慮這個簡單的東西，但還是進行視頻播放：

檢測手掌是非常簡單的。手掌掌控整個音頻頻段的能量很高。與全面的語音識別相比，檢測它簡單且計算方便得多。

簡而言之，您可以記錄音頻，對數據進行（短時間）FFT並檢測80％的可用頻率箱中有高能量的情況。由於錄音室/麥克風設置簡單，80％可以處理任何階段性問題。然後調整thresold品嚐，你就完成了。

對於語音識別也是可以的，但是您會刻錄CPU週期的噸。

來源

2009-05-23 17:20:52

這非常有趣。但是你能用這種方式檢測語言嗎？那是「嘿Siri」和「OK Google」做的嗎？ – 2016-07-25 20:00:07

什麼是O/S？我想知道是否Speech functionality in Windows Vista會幫助你。對於任何語音分析儀來說，認識到一個單詞似乎是最簡單的問題。

來源

2009-05-23 17:21:09 ChrisW

認識到一個單詞會更容易。要識別的關鍵詞或短語越長越容易避免誤報。這就是爲什麼有限語法識別比聽寫更容易和更可靠的原因。 – user57368 2009-05-23 22:54:28

就在幾天前有人問到a question關於Linux上的語音識別的可能性。你所要求的是其中的一個子集，我假設其中的一些答案可能包含有用的信息。 joeforker的回答中的文章非常有趣。

來源

2009-05-23 21:54:29 hlovdal

解釋爲什麼這是被投票贊成。 – hlovdal 2009-11-11 12:15:04

我有一個錄音win32應用程序。我使用OCX來管理錄製/播放。

我知道這不完全是你問的解決方案，但你可能要考慮腳踏板。編程簡單，並且非常像一個口語詞組開始/停止錄音。檢查這些：www.pedalpower.com

希望它能幫助，

雷納爾多。

來源

2010-05-05 00:11:57

Red5項目中的一位同事創建了一個類似的演示，使用觸發詞來使搜索針對圖像存儲庫運行。說「貓」導致貓出現在約一秒鐘內的圖像。客戶端應用程序使用Flash編寫，後端使用免費的Sphinx庫在Red5上運行。沒有太多努力，你當然可以用獅身人面像做你想做的。
斯芬克斯項目：http://cmusphinx.sourceforge.net/sphinx4/

來源

2010-09-05 19:27:47

「語音觸發」檢測

回答

相關問題