2015-11-16 29 views
-1

我想實現以下想法。我需要我的用戶打開網頁或移動應用程序並說點什麼。用戶的語音會被記錄下來併發送到本地服務器,我希望服務器處理它並生成一些語音輸出。使用哪種語音識別系統?

我的問題是下一:

  1. 哪個語音識別API使用?在我的情況下,音頻文件將被髮送到服務器 ,之後它將被處理。

  2. 我需要識別姓名和姓氏。這是一個潛在的問題,因爲我不住在說英語的國家,並且姓名和姓氏對說英語的人來說可能是相當陌生的。我想通過在語音識別系統的「詞典」中添加所需的姓名和姓氏來實現這一點,所以我需要一個可以擴展它的詞典的詞典。

  3. 我需要一個自由的決定。

那麼,我應該在執行我的想法時使用哪種語音識別API?

回答

1

我在過去使用CMU Sphinx toolkit進行語音識別時已取得成功。我在Android應用程序中使用了它的變體。如果我沒有記錯,它確實允許創建一個特定單詞字典來查找,以便它可以滿足您的需求。

1

我建議你看看Nuance的Speech API。他們有最好的市場,並可在任何平臺上使用。我們將它們用於我們的產品LinguSocial,該產品可爲手機提供接近實時的語音通話翻譯功能,並提供機器翻譯的視頻聊天。