mfcc

    1熱度

    1回答

    我正在嘗試使用Mel頻率倒譜系數(MFCC)和動態時間規整(DTW)來實現語音識別模塊。 我將信號(x(n))劃分爲25ms的幀,重疊10ms,並找出每幀的MFCC參數。 我的主要疑問是如何在這種情況下執行DTW。 假設有M幀和N(13)個MFCC係數。 所以我有一個M×N矩陣。 現在我該如何計算DTW?

    2熱度

    1回答

    我想使用scikits.talkbox,但導入scikits.talkbox時出現以下錯誤。 Traceback (most recent call last): File "/home/seref/Desktop/machine learning codes/MFCC/main.py", line 3, in from scikits.talkbox.features.mfcc import m

    3熱度

    3回答

    我只是信號處理方面的初學者。這是到目前爲止我的代碼從一個音頻文件(.WAV)提取MFCC特徵: from python_speech_features import mfcc import scipy.io.wavfile as wav (rate,sig) = wav.read("AudioFile.wav") mfcc_feat = mfcc(sig,rate) print(mfc

    0熱度

    1回答

    我是Android上的編程應用程序,我正在使用Qt創建器。我正在尋找圖書館,什麼樣的信號,像一個拉奎拉。它需要MFCC技術。我會很感激所有的建議。接下來是麥克風。我完全不知道,我如何獲得任何聲音處理設備。我的想法是,我按下按鈕,麥克風將錄製所有聲音5秒鐘,然後從中獲取MFCC。

    1熱度

    1回答

    我目前正試圖複製一篇論文的作品,在論文中他們使用MFCC功能訓練cnn,而不需要在最後執行DCT。它基本上是濾波器組的能量的對數。 我知道kaldi可以使用make_mfcc.sh腳本來計算MFCC功能。但是,如果不能在最後執行DCT來改變腳本以計算MFCC,如果不是的話,是否還有其他工具可以做到這一點? 採取傅立葉變換的信號(的窗口化摘錄)的:如下 的MFCC通常衍生。 使用三角形重疊窗口將以上

    0熱度

    2回答

    我想用libmfcc庫來計算這些係數。但我有一些浮標。功能getCoefficinet想要一個雙打數組。我試圖覆蓋這個函數的參數,但它仍然不起作用。最好的解決方案是如果我從這個函數獲得浮點數。什麼是參數大小,它是輸入數組的大小還是不同的東西? int freq = 44100, filter = 48, size = 1024, mfccCount = 26; //const float

    -1熱度

    1回答

    我正試圖從存儲在SD卡上的wav文件中計算MFCC係數。我正在使用庫:https://github.com/dspavankumar/compute-mfcc 輸入是使用ifstream的wav文件路徑。我需要能夠根據時間段訪問從單個wav文件拆分的不同pcm文件,並計算每個段的MFCC。我無法找到一種方法將這些數據(原始pcm數據)從java類中下載到下面的方法中顯示的緩衝區中。 (使用JNI)

    -1熱度

    1回答

    使用python處理基於說話人識別的項目,並在找到MFCC時出現以下錯誤。 Traceback (most recent call last): File "neh1.py", line 10, in <module> complexSpectrum = numpy.fft(signal) TypeError: 'module' object is not callable 這是

    1熱度

    1回答

    在使用HTK(隱馬爾可夫模型工具包)爲Speech to Text System創建Voxforge's tutorial之後創建MFCC時,我們需要爲我們的手機定義原型模型。我正試圖把這個文件包裹起來。 ~o <VecSize> 25 <MFCC_0_D_N_Z> ~h "proto" <BeginHMM> <NumStates> 5 <State> 2 <Me

    1熱度

    1回答

    我使用Kaldi的「egs/tidigits」代碼,使用23個採樣率,20kHz採樣率,25ms窗口和10ms偏移量生成「七個」話語的頻譜圖。頻譜似乎是通過MATLAB於imagesc功能如下顯現: 我用Librosa作爲替代Kaldi試驗。我使用與上面相同的bin數,採樣率和窗口長度/移位來設置我的代碼。 time_series, sample_rate = librosa.core.load(