SSE歸一化慢於簡單近似？

我的第一個嘗試是使用SSE內在函數 - 這爲我的向量算法提供了2倍的速度提升。這裏是基本的代碼：（v.v4是輸入）（用GCC）（所有這一切都是內聯）

//find squares 
v4sf s = __builtin_ia32_mulps(v.v4, v.v4); 
//set t to square 
v4sf t = s; 
//add the 4 squares together 
s = __builtin_ia32_shufps(s, s, 0x1B); 
t  = __builtin_ia32_addps(t, s); 
s = __builtin_ia32_shufps(s, s, 0x4e); 
t  = __builtin_ia32_addps(t, s); 
s = __builtin_ia32_shufps(s, s, 0x1B); 
t  = __builtin_ia32_addps(t, s); 
//find 1/sqrt of t 
t  = __builtin_ia32_rsqrtps(t); 
//multiply to get normal 
return Vec4(__builtin_ia32_mulps(v.v4, t));

我檢查拆卸和它看起來像我多麼期望。我在那裏看不到什麼大問題。

不管怎麼說，然後我嘗試用近似：（我得到這個從谷歌）

float x = (v.w*v.w) + (v.x*v.x) + (v.y*v.y) + (v.z*v.z); 
float xhalf = 0.5f*x; 
int i = *(int*)&x; // get bits for floating value 
i = 0x5f3759df - (i>>1); // give initial guess y0 
x = *(float*)&i; // convert bits back to float 
x *= 1.5f - xhalf*x*x; // newton step, repeating this step 
// increases accuracy 
//x *= 1.5f - xhalf*x*x; 
return Vec4(v.w*x, v.x*x, v.y*x, v.z*x);

它比SSE版本稍快運行！（快5-10％）它的結果也非常準確 - 當找到長度時我會說0.001。 但是，GCC給我的跛行嚴格的鋸齒規則，因爲類型雙關。

所以我修改：

union { 
    float fa; 
    int ia; 
}; 
fa = (v.w*v.w) + (v.x*v.x) + (v.y*v.y) + (v.z*v.z); 
float faHalf = 0.5f*fa; 
ia = 0x5f3759df - (ia>>1); 
fa *= 1.5f - faHalf*fa*fa; 
//fa *= 1.5f - faHalf*fa*fa; 
return Vec4(v.w*fa, v.x*fa, v.y*fa, v.z*fa);

而且現在的修改版本（無警告）的運行速度！它的運行速度幾乎是SSE版本運行速度的60％（但結果相同）！爲什麼是這樣？

所以在這裏是問題（S）：

是我SSE implentation是否正確？
SSE真的比普通的fpu操作慢嗎？
爲什麼地獄是第三代碼慢得多？

來源

2011-02-01 Pubby

這將有助於知道你在使用什麼樣的CPU。例如。舊的x86 CPU（Core 2之前）的SSE功能很差。 – 2011-02-01 19:17:41

我在英特爾奔騰雙核 – Pubby 2011-02-01 19:27:16

我是一個塗料 - 我意識到我有SETI @ Home在基準測試中運行。我猜這是在破壞我的上證所表現。把它關掉，讓它跑得快兩倍。

我也在AMD Athlon上測試過它，得到了相同的結果--SSE更快。

至少我修好了shuf的bug！

來源

2011-02-01 20:10:55 Pubby

我的猜測是第三個版本比較慢，因爲編譯器決定把聯合放在一個內存變量中。在強制轉換的情況下，它可以將寄存器中的值複製到寄存器中。你可以看看生成的機器碼。至於爲什麼上證不準確，我沒有答案。如果你能給出真實的數字，這將有所幫助。如果大小爲1的矢量的差異爲0.3，那將是無恥的。

來源

2011-02-01 19:31:19

這是我能想到的最高效的彙編代碼。您可以將其與您的編譯器生成的內容進行比較假設輸入和輸出在XMM0中。

 ; start with xmm0 = { v.x v.y v.z v.w } 
     movaps %xmm0, %mm1   ; save it till the end 
     mulps %xmm0, %xmm0  ; v=v*v 
     pshufd $1, %xmm0, %xmm1 ; xmm1 = { v.y v.x v.x v.x } 
     addss %xmm0, %xmm1  ; xmm1 = { v.y+v.x v.x v.x v.x } 
     pshufd $3, %xmm0, %xmm2 ; xmm2 = { v.w v.x v.x v.x } 
     movhlps %xmm0, %xmm3  ; xmm3 = { v.z v.w ? ? } 
     addss %xmm1, %xmm3  ; xmm3 = { v.y+v.x+v.z v.x ? ? } 
     addss %xmm3, %xmm2  ; xmm2 = { v.y+v.x+v.z+v.w v.x v.x v.x } 
     rsqrtps %xmm2, %xmm1  ; xmm1 = { rsqrt(v.y+v.x+v.z+v.w) ... } 
     pshufd $0, %xmm1, %xmm1 ; xmm1 = { rsqrt(v.y+v.x+v.z+v.w) x4 } 
     mulps %xmm1, %xmm0  
     ; end with xmm0 = { v.x*sqrt(...) v.y*sqrt(...) v.z*sqrt(...) v.w*sqrt(...) }

來源

2011-02-01 21:46:07

SSE歸一化慢於簡單近似？

回答

相關問題