我有一個音頻文件(錄製2人電話交談)。我需要自動分開2個揚聲器的聲音。我是新來的語音識別,我看着Python的波模塊,但表面上找到任何豐富的信息。Python揚聲器識別
請幫助如何開始。也請建議我免費的Python庫,這將幫助我解決問題。
我有一個音頻文件(錄製2人電話交談)。我需要自動分開2個揚聲器的聲音。我是新來的語音識別,我看着Python的波模塊,但表面上找到任何豐富的信息。Python揚聲器識別
請幫助如何開始。也請建議我免費的Python庫,這將幫助我解決問題。
從numpy開始,我會查看譜圖(基本上是一個滾動FFT),作爲區分音頻錄製中不同聲音的好方法。
這裏的頻譜功能Matplotlib:
http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram
我會建議Python(x,y)如果你剛剛在Windows平臺上啓動。
查看CMU Sphinx Python庫。它是用Java開發的,所以我認爲Python庫只是包裝器。該項目背後有很多正在進行的研究。
官方維基:http://cmusphinx.sourceforge.net/wiki/
快速入門教程爲Linux在這裏:http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python
退房sciKits的TalkBox:http://projects.scipy.org/scikits/wiki/Talkbox
Unfortunutly教程是非常嚴格的限制:http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html
分離的任務的揚聲器不是語音識別任務,這是一個說話人識別任務。在演講中,這個任務也被稱爲演講者diarization。有揚聲器diarization和說話人識別幾個包對於Python:
如果你不侷限於Python中,有其他:
Speaker recognition setup in Kaldi。包括最先進的基於DNN的i向量。