ARM NEON簡單的低通濾波器矢量

y[n+1] = (1-a)*y[n] + a*x[n+1] 
y[n+2] = (1-a)*y[n+1] + a*x[n+2] = (1-a)*((1-a)*y[n] + a*x[n+1]) + a*x[n+2] 
     = (1-a)^2*y[n] + a*(1-a)*x[n+1] + a*x[n+2] 
...

在一般情況下，你可以寫y[n+k]爲：

y[n+k] = (1-a)^2*y[n] + sum_{i=1}^k a*(1-a)^{k-i}*x[n+i]

我知道上面是難以閱讀（也許我們可以在遷移此問題到Signal Processing，我可以在LaTeX中重新排版）。但是，給定的初始條件y[n]（其被假定爲是對先前矢量迭代中計算的最後輸出），則可以並行地計算下一M輸出作爲展開的過濾器的其餘部分具有FIR狀結構。

這種方法有一些注意事項：如果M變大，那麼最終會將一串數字相乘，以便獲得展開濾波器的有效FIR係數。根據您的號碼格式和a的值，這可能會產生數字精確含義。此外，您不使用這種方法得到的M倍速度提升：你最終計算y[n+k]有相當於一個k抽頭FIR濾波器。雖然你並行計算輸出M，但你必須做k乘法累加運算而不是簡單的一階遞歸實現，這減少了向量化的一些好處。

來源

2012-01-05 23:38:39

是會談的答案帶有9個操作的矢量化版本比使用只有三個操作的簡單標量版本更高效？好吧，但總體上標量將有4 * 3 = 12個操作，所以可能比矢量稍慢，對不對？ – 2012-01-06 21:19:37

是的，這就是我在最後一段中得到的結果;在操作計數方面，沒有您想要的那麼大的好處，只有50％而不是1/M。 [這個問題的一個非常相似的版本交叉張貼在信號處理]（http://dsp.stackexchange.com/questions/1075/how-can-i-vectorize-the-computations-for-a-first-order - 遞歸濾波器），更關注問題結構和操作數量，而不是任何NEON特定的。那裏有一些額外的細節。 – 2012-01-06 21:23:58

ARM NEON簡單的低通濾波器矢量

回答

相關問題