查找音頻中單詞的時間戳

我有一個人類語音的音頻文件。音頻的長度約爲1分鐘。我想找到音頻中說出的單詞或短語的時間戳。查找音頻中單詞的時間戳

是否有任何現有的庫可以完成任務？

至少有兩種方法可以解決這個問題：語音識別和機器學習。哪個更適合取決於你的情況。

使用語音識別功能，您可以通過已建立的語音到文本識別器運行音頻，並根據距離結果字符串開頭的距離來評估單詞的時間戳。通過機器學習，您可以爲訓練數據中的單詞或詞組生成的音頻建立一個模型，然後將測試音頻分成合適的長度，並針對模型運行，以評估其成爲您所查找單詞的可能性。

機器學習方法很可能在時間戳方面更準確，但當然需要大量的訓練數據來首先建立模型。

2017-01-22 07:37:52

回答