3

所以我正在學習機器學習,並想知道mfcc特徵大小如何影響RNN(Recurent神經網絡)?mfcc特徵大小如何影響recurent神經網絡

隨着librosa我提取MFCC然後增量係數和後,我得到尺寸的陣列[13,sound_length]

用蟒提取MFCC和增量係數的代碼:(Y - 聲音文件數據,SR - y的長度)

mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13) 
mfcc_delta = librosa.feature.delta(mfcc, axis=0, order=1) 

所以理論上如果我想用這種數據和其中n_mfcc = 39的數據來訓練網絡。誰會更好,爲什麼? (忽略所有其他超參數)我只想知道這個參數如何影響RNN的理論。

+1

我不認爲三角洲特徵(一階導數,本質上)是必要的,因爲RNN應該能夠學習他們自身。它們對於隱馬爾可夫模型(HMM)可能更重要。 –

+0

你好@Nikas你能夠使用mfcc來提供給RNN嗎?無論你可以分享你的代碼片段嗎?謝謝 –

回答

4

MFCCsMel比例(非線性)光譜的DCT的係數。換句話說,它們捕捉梅爾譜中週期性變化的幅度。在音樂分析中,這通常用來描述一首音樂的timbre。係數指數越低,頻率(Mel譜中的週期性變化)越低。

簡而言之:較低的指數/係數通常更重要。

JPEG圖像文件格式的情況也是如此,並且MP3較高的DCT係數被丟棄,因爲它們描述了通常不被認爲重要的較高頻率。

因此較少的係數意味着您可以使用較小的RNN。但是,您將失去那些更高頻率中包含的信息(如上所述,這通常不被視爲非常重要)。這是一個收益遞減的遊戲:在某個時候,更多的係數意味着更多的投入,但不一定是更好的結果。

AFAIK,在音樂信息檢索(MIR)中,通常使用前13個係數。但我也看過使用前20個的文章。

在用於MIR之前,MFCC用於語音識別。

B. Logan. "Mel frequency cepstral coefficients for music modeling." In International Symposium on Music Information Retrieval (ISMIR 2000), 2000.

或者McFee, Brian, and Gert RG Lanckriet. "Heterogeneous Embedding for Subjective Artist Similarity." ISMIR 2009, 2009.

+0

只是想說這是一個非常好的答案,特別是第一段! –

+0

謝謝@CarlThomé! – hendrik