2017-04-26 117 views
1

我正在使用pocketsphinx將音頻轉換爲文本。它工作正常。現在我想要得到每個單詞的時間戳。這是我的代碼:pocketsphinx python給出錯誤的時間戳

import speech_recognition as sr 

r = sr.Recognizer() 
framerate = 100 
with sr.AudioFile("1.wav") as source: 

    audio = r.record(source) 

    decoder = r.recognize_sphinx(audio, show_all=False) 

    print ([(seg.word, seg.start_frame/framerate)for seg in decoder.seg()]) 

根據他們的文檔,默認的幀率是100.我得到了每個單詞的開始時間。但是,這是不正確的。差別是2秒,有時超過3秒。

這是已知的問題或我錯過了什麼?

回答

1

我讀的地方,發生率爲1/100所以,我的項目,我除以,事故的1/10代替1/100但結果是因爲我在做什麼實際的罰款。我建議除以0.10.01並查看提供給您的內容。

因此,對於你的代碼只是嘗試一下這些變量:

framerate = .1 

OR

framerate = .01