2009-11-15 176 views
2

我的任務是將音頻文件不是從人類的直接語音轉換成文本。使用SAPI將音頻(wav文件)轉換爲文本?

例如,如果我在wav文件中有「Hello there」存儲,它會將其轉錄爲文本並在屏幕上顯示「Hello there」字符串。

首選但優先級爲C#的任何語言代碼。

回答

2

SAPI當然可以做你想做的。從一個進程內識別器開始,將您的音頻作爲文件流連接,設置聽寫模式,然後關閉您。

現在令人失望的一點。你可能不會得到非常好的結果;事實上,我懷疑,除非你很幸運,否則你可能會得到全部垃圾。

有幾個問題:

  1. 聽寫真的只有行之有效一旦SR引擎已經被訓練。如果你幸運(像我一樣),你可以得到好的結果,但如果說話者有口音,訓練是必須的。
  2. 培訓只適用於單一語音。如果你在一個音頻文件中有多個揚聲器,它將無法正常工作。
  3. 聽寫(以及一般語音識別)的音頻模型假定您正在使用近距離通話麥克風(即靠近臉部的麥克風,以儘量減少噪音拾取)。如果你的WAV文件有額外的噪音,準確性會大大降低。

龍自然說專業支持轉錄,但它仍然需要培訓和單一的聲音。 (我相信DNS有一個自定義的音頻模型,適用於語音錄音機。)我自己並沒有使用它,所以我不知道它在您的情況下會有多好。現在

,如果你正在尋找特定關鍵字,其他人已經開始使用「音頻礦業」取得了成功 - 在運行識別尋找在音頻流

+0

埃裏克喜特定的關鍵字,我真的很感激你的答案。其實我正在製作我自己的應用程序,我希望將音頻文件轉換爲文本。我從麥克風取得了直接的聽寫方式,訓練有力,效率很高。現在正在尋找加載音頻文件並將其轉換爲文本。 你可以推薦任何源代碼鏈接,以便我可以得到一些幫助。我已經嘗試過Dragon和它的優秀,但是現在想要讓我自己使用SAPI。如果可以,請提供幫助。 – Umaid 2009-11-25 21:42:49

相關問題