如何訓練lstm進行語音識別

我正在嘗試訓練lstm模型進行語音識別，但不知道要使用哪些訓練數據和目標數據。我正在使用LibriSpeech dataset，它包含音頻文件及其成績單。此時，我知道目標數據將是向量化的轉錄文本。至於訓練數據，我正在考慮使用每個音頻文件（或MFCC功能）的頻率和時間。如果這是解決問題的正確方法，那麼訓練數據/音頻將是多個數組，我將如何將這些數組輸入到我的lstm模型中？我需要將它們矢量化嗎？如何訓練lstm進行語音識別

謝謝！

來源

2016-11-25 user562

要準備送入LSTM模型的語音數據集，您可以看到這個帖子 - Building Speech Dataset for LSTM binary classification以及Data Preparation。

作爲一個很好的例子，你可以看到這個帖子 - http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/。這篇文章談到如何使用RNN預測Keras中的向量序列- LSTM。

我相信你會發現這篇文章（https://stats.stackexchange.com/questions/192014/how-to-implement-a-lstm-based-classifier-to-classify-speech-files-using-keras）也很有幫助。

來源

2016-11-26 00:18:13

如何訓練lstm進行語音識別

回答

相關問題