mfcc

1熱度

1回答

我正在嘗試使用Mel頻率倒譜系數（MFCC）和動態時間規整（DTW）來實現語音識別模塊。我將信號（x（n））劃分爲25ms的幀，重疊10ms，並找出每幀的MFCC參數。我的主要疑問是如何在這種情況下執行DTW。假設有M幀和N（13）個MFCC係數。所以我有一個M×N矩陣。現在我該如何計算DTW？

2熱度

1回答

導入scikits.talkbox時出錯

我想使用scikits.talkbox，但導入scikits.talkbox時出現以下錯誤。 Traceback (most recent call last): File "/home/seref/Desktop/machine learning codes/MFCC/main.py", line 3, in from scikits.talkbox.features.mfcc import m

3熱度

3回答

如何在Python中繪製MFCC？

我只是信號處理方面的初學者。這是到目前爲止我的代碼從一個音頻文件（.WAV）提取MFCC特徵： from python_speech_features import mfcc import scipy.io.wavfile as wav (rate,sig) = wav.read("AudioFile.wav") mfcc_feat = mfcc(sig,rate) print(mfc

0熱度

1回答

如何從android上的麥克風輸入獲取MFCC（C++，Qt）

我是Android上的編程應用程序，我正在使用Qt創建器。我正在尋找圖書館，什麼樣的信號，像一個拉奎拉。它需要MFCC技術。我會很感激所有的建議。接下來是麥克風。我完全不知道，我如何獲得任何聲音處理設備。我的想法是，我按下按鈕，麥克風將錄製所有聲音5秒鐘，然後從中獲取MFCC。

1熱度

1回答

提取沒有日誌的MFCC係數？

我目前正試圖複製一篇論文的作品，在論文中他們使用MFCC功能訓練cnn，而不需要在最後執行DCT。它基本上是濾波器組的能量的對數。我知道kaldi可以使用make_mfcc.sh腳本來計算MFCC功能。但是，如果不能在最後執行DCT來改變腳本以計算MFCC，如果不是的話，是否還有其他工具可以做到這一點？採取傅立葉變換的信號（的窗口化摘錄）的：如下的MFCC通常衍生。使用三角形重疊窗口將以上

0熱度

2回答

將浮點數組賦給libmfcc庫

我想用libmfcc庫來計算這些係數。但我有一些浮標。功能getCoefficinet想要一個雙打數組。我試圖覆蓋這個函數的參數，但它仍然不起作用。最好的解決方案是如果我從這個函數獲得浮點數。什麼是參數大小，它是輸入數組的大小還是不同的東西？ int freq = 44100, filter = 48, size = 1024, mfccCount = 26; //const float

-1熱度

1回答

替代ifstream（C++），同時嘗試讀取Android中的.wav文件

我正試圖從存儲在SD卡上的wav文件中計算MFCC係數。我正在使用庫：https://github.com/dspavankumar/compute-mfcc 輸入是使用ifstream的wav文件路徑。我需要能夠根據時間段訪問從單個wav文件拆分的不同pcm文件，並計算每個段的MFCC。我無法找到一種方法將這些數據（原始pcm數據）從java類中下載到下面的方法中顯示的緩衝區中。（使用JNI）

-1熱度

1回答

TypeError：'模塊'對象不可調用。 MFCC

使用python處理基於說話人識別的項目，並在找到MFCC時出現以下錯誤。 Traceback (most recent call last): File "neh1.py", line 10, in <module> complexSpectrum = numpy.fft(signal) TypeError: 'module' object is not callable 這是

1熱度

1回答

HTK - HMM模型和輸入WAV文件的MFCC代表什麼？

在使用HTK（隱馬爾可夫模型工具包）爲Speech to Text System創建Voxforge's tutorial之後創建MFCC時，我們需要爲我們的手機定義原型模型。我正試圖把這個文件包裹起來。 ~o <VecSize> 25 <MFCC_0_D_N_Z> ~h "proto" <BeginHMM> <NumStates> 5 <State> 2 <Me

1熱度

1回答

使用Librosa生成的頻譜圖與Kaldi看起來不一致？

我使用Kaldi的「egs/tidigits」代碼，使用23個採樣率，20kHz採樣率，25ms窗口和10ms偏移量生成「七個」話語的頻譜圖。頻譜似乎是通過MATLAB於imagesc功能如下顯現：我用Librosa作爲替代Kaldi試驗。我使用與上面相同的bin數，採樣率和窗口長度/移位來設置我的代碼。 time_series, sample_rate = librosa.core.load(