mfcc特徵大小如何影響recurent神經網絡

所以我正在學習機器學習，並想知道mfcc特徵大小如何影響RNN（Recurent神經網絡）？mfcc特徵大小如何影響recurent神經網絡

隨着librosa我提取MFCC然後增量係數和後，我得到尺寸的陣列[13，sound_length]

用蟒提取MFCC和增量係數的代碼：（Y - 聲音文件數據，SR - y的長度）

mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13) 
mfcc_delta = librosa.feature.delta(mfcc, axis=0, order=1)

所以理論上如果我想用這種數據和其中n_mfcc = 39的數據來訓練網絡。誰會更好，爲什麼？（忽略所有其他超參數）我只想知道這個參數如何影響RNN的理論。

我不認爲三角洲特徵（一階導數，本質上）是必要的，因爲RNN應該能夠學習他們自身。它們對於隱馬爾可夫模型（HMM）可能更重要。 –

你好@Nikas你能夠使用mfcc來提供給RNN嗎？無論你可以分享你的代碼片段嗎？謝謝 –

MFCCs是Mel比例（非線性）光譜的DCT的係數。換句話說，它們捕捉梅爾譜中週期性變化的幅度。在音樂分析中，這通常用來描述一首音樂的timbre。係數指數越低，頻率（Mel譜中的週期性變化）越低。

簡而言之：較低的指數/係數通常更重要。

JPEG圖像文件格式的情況也是如此，並且MP3較高的DCT係數被丟棄，因爲它們描述了通常不被認爲重要的較高頻率。

因此較少的係數意味着您可以使用較小的RNN。但是，您將失去那些更高頻率中包含的信息（如上所述，這通常不被視爲非常重要）。這是一個收益遞減的遊戲：在某個時候，更多的係數意味着更多的投入，但不一定是更好的結果。

AFAIK，在音樂信息檢索（MIR）中，通常使用前13個係數。但我也看過使用前20個的文章。

在用於MIR之前，MFCC用於語音識別。

2017-01-26 16:21:42 hendrik

只是想說這是一個非常好的答案，特別是第一段！ –

謝謝@CarlThomé！ – hendrik

回答