1
我正在使用pocketsphinx將音頻轉換爲文本。它工作正常。現在我想要得到每個單詞的時間戳。這是我的代碼:pocketsphinx python給出錯誤的時間戳
import speech_recognition as sr
r = sr.Recognizer()
framerate = 100
with sr.AudioFile("1.wav") as source:
audio = r.record(source)
decoder = r.recognize_sphinx(audio, show_all=False)
print ([(seg.word, seg.start_frame/framerate)for seg in decoder.seg()])
根據他們的文檔,默認的幀率是100.我得到了每個單詞的開始時間。但是,這是不正確的。差別是2秒,有時超過3秒。
這是已知的問題或我錯過了什麼?