您會如何比較口頭文字與音頻文件並確定它們是否匹配?例如,如果我在我的iPhone應用程序中說「蘋果」,我希望它記錄音頻並將其與預先錄製的某個人稱爲「蘋果」的音頻文件進行比較。它應該能夠確定這兩個口語匹配。你會如何比較口頭文字與音頻文件?
我可以使用什麼樣的算法或庫來執行這種基於語音的音頻文件匹配?
您會如何比較口頭文字與音頻文件並確定它們是否匹配?例如,如果我在我的iPhone應用程序中說「蘋果」,我希望它記錄音頻並將其與預先錄製的某個人稱爲「蘋果」的音頻文件進行比較。它應該能夠確定這兩個口語匹配。你會如何比較口頭文字與音頻文件?
我可以使用什麼樣的算法或庫來執行這種基於語音的音頻文件匹配?
獅身人面像做語音識別和pocketSphinx已經由布萊恩國王移植到iPhone
檢查https://github.com/KingOfBrian/VocalKit
他提供了出色的細節,並使其易於實現自己。我已經運行他的例子並修改了我自己的演示。
你能否提供一個這個庫的基本用法的例子?我試圖初始化一個沒有成功的VKController對象。 (顯然需要一些* .conf文件..) – Rizon 2011-05-03 19:48:59
您可以使用神經網絡庫並教它識別不同的語音模式。這將需要一些人知道神經網絡的一般理論的背後,以及如何使用它們來創建表現特定方式的系統。如果你對這個主題一無所知,那麼你可以開始使用基礎知識,然後使用庫而不是自己實現一些東西。希望有所幫助。
你應該查找Acoustic Fingerprinting,參見下面的維基百科鏈接。 Shazam基本上是爲了音樂。
我知道這個問題是舊的,但今天我發現了這個庫:
如果你喜歡android版本,在他們的頁面上指出'聯繫我們info @ ispikit.com`。 – Scoregraphic 2014-05-13 07:08:53
是的,這是工作。工作,你必須自己做。 – Jasarien 2010-11-23 12:16:32