我想獲得兩段音頻之間的某種距離度量。例如,我想比較動物的聲音和模仿動物的人的聲音,然後返回聲音的相似程度。兩個音頻序列之間的感知相似性
這似乎是一個難題。什麼是最好的方法來處理它?我正在考慮從音頻信號中提取幾個特徵,然後在這些特徵上做一個歐幾里德距離或餘弦相似性(或類似的東西)。什麼樣的特徵容易提取並且有用於確定聲音之間的感知差異?我看到了一些關於Ahazam如何使用散列的東西,但這看起來像是一個不同的問題,因爲這兩個音頻是完全相同的,並且還有噪聲,而在這種情況下,這兩個音頻不是相同的,他們只是知覺上相似)
謝謝。我可以嘗試生成一些不同聲音的頻譜,看看相似的聲音是否會產生類似的頻譜,而不同的聲音則不會。根據我對維基百科鏈接的理解,頻譜必須使用傅里葉變換創建? – Bart 2010-07-05 09:33:57