你會如何比較口頭文字與音頻文件？

您會如何比較口頭文字與音頻文件並確定它們是否匹配？例如，如果我在我的iPhone應用程序中說「蘋果」，我希望它記錄音頻並將其與預先錄製的某個人稱爲「蘋果」的音頻文件進行比較。它應該能夠確定這兩個口語匹配。你會如何比較口頭文字與音頻文件？

我可以使用什麼樣的算法或庫來執行這種基於語音的音頻文件匹配？

2010-11-23 user517307

是的，這是工作。工作，你必須自己做。 – Jasarien 2010-11-23 12:16:32

獅身人面像做語音識別和pocketSphinx已經由布萊恩國王移植到iPhone

他提供了出色的細節，並使其易於實現自己。我已經運行他的例子並修改了我自己的演示。

2010-11-24 03:29:42

你能否提供一個這個庫的基本用法的例子？我試圖初始化一個沒有成功的VKController對象。（顯然需要一些* .conf文件..） – Rizon 2011-05-03 19:48:59

您可以使用神經網絡庫並教它識別不同的語音模式。這將需要一些人知道神經網絡的一般理論的背後，以及如何使用它們來創建表現特定方式的系統。如果你對這個主題一無所知，那麼你可以開始使用基礎知識，然後使用庫而不是自己實現一些東西。希望有所幫助。

2010-11-23 15:41:03 bhavinp

你應該查找Acoustic Fingerprinting，參見下面的維基百科鏈接。 Shazam基本上是爲了音樂。

2010-11-23 16:00:53

我知道這個問題是舊的，但今天我發現了這個庫：

2013-12-09 06:08:29

如果你喜歡android版本，在他們的頁面上指出'聯繫我們info @ ispikit.com`。 – Scoregraphic 2014-05-13 07:08:53

回答