2012-07-16 93 views
3

Siri等軟件會採取語音指令並適當地回答這些問題(98%)。我想知道,當我們編寫一個軟件來輸入語音信號流並回答這些問題時,我們是否需要將輸入轉換爲人類可讀的語言?如英語?語音識別,如Siri

就像自然界我們有這麼多不同的語言,但是當我們說話時,我們基本上會產生不同的噪音。而已。但是,我們已經創建了所謂的字母表來表示這些噪音變化。

所以,同樣我的問題是,當我們寫的語音識別算法,我們是否符合這些噪聲變化信號,與我們的數據庫或第一次我們把這些噪聲變化成英文,然後檢查哪些從數據庫回答?

回答

2

您所指的「噪聲變化信號」被稱爲phonemes。語音識別系統如何翻譯這些音素一詞取決於系統的類型。 Siri不是一個基於語法的系統,您可以根據一組規則來告訴語音識別系統您期望的短語類型。由於Siri在開放的語境中翻譯語音,因此可能使用某種類型的統計建模。當今流行的語音識別統計模型是隱馬爾可夫模型。雖然存在涉及種類的數據庫,但它不是將音素組簡單地搜索成單詞。對翻譯過程和問題有一個很好的高層次描述here

2

蘋果的Siri基於自然語言理解.. 我相信Nuance公司是幕後.. Refer This Article
Nuance公司是語音識別系統的開發負責人。 Nuance的龍引擎的精確度是很不錯的... 誰IM工作消耗了Nuance的NOD的服務,爲他們的IVR系統內的客戶...
我試圖Nuance Dragon SDK for Android ...

從我的經驗,如果你使用Nuance的你不必擔心噪聲的變化等等等等......
但是當你爲企業發佈應用程序時,Nuance可能是昂貴的..

如果您打算使用Power of voice來驅動您的應用程序Google API也是更好的選擇...

有API的像Sphinxpocket sphinx也可以幫助你更好地進行語音應用開發..所有上面的API都會照顧到噪聲抑制和轉換成語音等文字等。

所有你需要擔心的是建立你的系統來理解語義給定字符串的含義或認可的語音內容。蘋果應該有非常好的語義解釋器。所以試試Nuance SDK。它適用於Android,iOS,Windows手機和HTTP客戶端版本。

我希望它可以幫助你

+0

卡菲基恩,很好寫了感謝的人!但是我更關心繫統是如何工作的,而不是可用的系統。 :) – doNotCheckMyBlog 2012-07-17 00:13:15

+0

獅身人面像和PocketSphinx是開源的......你爲什麼不試着去了解他們已經實現了什麼以及如何實現? :) – 2012-07-17 03:06:00