用於比較的SSE內在函數（_mm_cmpeq_ps）和賦值操作

我已經開始使用SSE優化我的代碼。本質上，它是一個光線跟蹤器，通過將座標存儲在__m128數據類型x，y，z中（四個光線的座標按軸分組），一次處理4條光線。然而，我有一個分支聲明，它可以防止零除以我似乎無法轉換爲SSE。這是：用於比較的SSE內在函數（_mm_cmpeq_ps）和賦值操作

const float d = wZ == -1.0f ? 1.0f/(1.0f-wZ) : 1.0f/(1.0f+wZ);

其中wZ是z座標，這個計算需要對所有四條射線完成。

我怎麼能把這個翻譯成SSE？

我已經使用SSE等於比較如下（現在WZ涉及一種__m128數據類型包含每個的四個射線的z值）進行實驗：

_mm_cmpeq_ps(_mm_set1_ps(-1.0f) , wZ)

，然後使用這個識別的情況下其中wZ [x] = -1.0，取這種情況的絕對值，然後繼續正常的計算。

但是我在這方面沒有取得太大的成功。

來源

2011-11-04 cubiclewar

除以零有什麼問題？ – Pubby

除了明顯的問題之外，它還會通過在算法的其餘部分爲Nz = -1創建不一致性來破壞結果。 – cubiclewar

這是一個相當直接的解決方案，它只是用SSE實現標量代碼而不需要進一步優化。它可能會更有效率，例如通過利用當wZ = -1.0時結果爲0.5的事實，或者甚至可以通過僅僅進行除法，然後在事實之後將INF s轉換爲0.5來實現。

對於SSE4與pre-SSE4，我已經有#ifdef d了，因爲SSE4有一個「混合」指令，這個指令可能更有效一些屏蔽和選擇值所需的三個預先SSE4指令。

#include <emmintrin.h> 
#ifdef __SSE4_1__ 
#include <smmintrin.h> 
#endif 

#include <stdio.h> 

int main(void) 
{ 
    const __m128 vk1 = _mm_set1_ps(1.0f);  // useful constants 
    const __m128 vk0 = _mm_set1_ps(0.0f); 

    __m128 wZ, d, d0, d1, vcmp; 
#ifndef __SSE4_1__ // pre-SSE4 implementation 
    __m128 d0_masked, d1_masked; 
#endif 

    wZ = _mm_set_ps(-1.0f, 0.0f, 1.0f, 2.0f); // test inputs 

    d0 = _mm_add_ps(vk1, wZ);     // d0 = 1.0 - wZ 
    d1 = _mm_sub_ps(vk1, wZ);     // d1 = 1.0 + wZ 
    vcmp = _mm_cmpneq_ps(d1, vk0);    // test for d1 != 0.0, i.e. wZ != -1.0 
#ifdef __SSE4_1__ // SSE4 implementation 
    d = _mm_blendv_ps(d0, d1, vcmp); 
#else    // pre-SSE4 implementation 
    d0_masked = _mm_andnot_ps(vcmp, d0); 
    d1_masked = _mm_and_ps(vcmp, d1); 
    d = _mm_or_ps(d0_masked, d1_masked);  // d = wZ == -1.0 ? 1.0/(1.0 - wZ) : 1.0/(1.0 + wZ) 
#endif 
    d = _mm_div_ps(vk1, d); 

    printf("wZ = %vf\n", wZ); 
    printf("d = %vf\n", d); 

    return 0; 
}

來源

2011-11-04 09:20:10

正是我以前的樣子。我需要仔細閱讀一些操作才能完全理解代碼，但我會生成正確的結果。出於好奇可以在SSE中容易識別並替換（infinite或nan（1/0評估的內容））？ – cubiclewar

我還沒有嘗試過，但我*認爲*，你可以利用'_mm_cmpeq_ps（v，v）''當'v'是'INF'或'NaN'時會返回false - 我可以嘗試使用另一個解決方案這個方法後來如果我得到時間... –

我試了@ PaulR的建議，用'_mm_cmpeq_ps（v，v）'作爲位掩碼來過濾掉'INF' /'NaN'，它似乎工作正常。 – Rotem

用於比較的SSE內在函數（_mm_cmpeq_ps）和賦值操作

回答

相關問題