avx2

    1熱度

    1回答

    根據this question我這次實現了水平加法5乘5和7乘7。它正確地完成工作,但速度不夠快。 它能比它更快嗎?我試圖使用hadd和其他指令,但改進受到限制。舉例來說,當我使用_mm256_bsrli_epi128時,它稍微好一點,但它需要一些額外的排列,因爲車道而損壞了好處。所以問題是如何實施以獲得更多的性能。相同的故事爲9個元件等 這增加了水平方向5個元素並將結果放置在地方0,5,和10:

    2熱度

    1回答

    我想交換兩個256位向量A和B中的16位值。夢幻般的方法是找到一個內置指令來完成它。不幸的是,我找不到,我認爲這項工作沒有任何指示。諸如洗牌,置換,混合等指令保留或破壞目的地中的值。是什麼我在尋找如下: vector A : |a0|a1|a2|a3|a4|a5|a6|a7||a8|a9|a10|a11|a12|a13|a14|a15| Vector B : |b0|b1|b2|b3|b4|b5

    0熱度

    4回答

    所以我有一個窗體。該表單默認由10行組成。它是這樣的: <form method="post" action="actionhere"> <?php for($i=0; $i<10;$i++) { ?> <div class='clone_me'> <span>Line <?php echo $i;?></span> <input type='chec

    0熱度

    1回答

    我想從__m256i可變的8個整數存儲8×32位int S的陣列。我想了想,該指令將_mm256_store_epi32,但我得到一個錯誤,這說明根本不存在!

    1熱度

    1回答

    我試圖通過對AVX2使用Intel intrinsincs將浮點值轉換爲整數值。我的簡單代碼如下: void convert_f2i(float *fin, int *iout, int iLen) { int i, index, iDiv8, iLeft; int *iin1; __m256 v0; __m256i vi0; iDiv8 = i

    0熱度

    1回答

    Intel SSE4.2內部函數中存在64位CRC函數。 unsigned __int64 _mm_crc32_u64 (unsigned __int64 crc, unsigned __int64 v) 但是我找不到在AVX2內在函數上的CRC計算的256位版本。我在我的程序中使用256位變量(__m256i),所以我想計算超過256位的crc(或散列)。如何使用英特爾AVX2執行此操作?

    1熱度

    1回答

    我有8個矢量的32字節對齊的結構在它: struct ALIGN(32) Ray8 { float x[8]; float y[8]; float z[8]; }; 當使用AVX2,我想在一致這些部件進行操作。我什麼時候需要使用_mm256_load_ps()明確加載它們而不是投射它們?例如,使用以下簽名: void GenerateRayDirections

    11熱度

    3回答

    我有一個浮動行(〜20列x〜1M行),從中我需要一次提取兩列到兩個__m256寄存器行列數組。 ...a0.........b0...... ...a1.........b1...... // ... ...a7.........b7...... // end first __m256 一個天真的方式做,這是 __m256i vindex = _mm256_setr_epi32(

    0熱度

    1回答

    我有一個項目,我導出到jar文件,並使用Maven安裝: mvn install:install-file -Dfile=/home/myuser/workspace/libs/mylib.jar -DgroupId=br.com.mylib -DartifactId=mylib -Dversion=1.0 -Dpackaging=jar 在其他項目中,我剛剛導入的pom.xml: <depe

    -1熱度

    2回答

    因此,我正試圖學習如何在XAMPP上構建PHP聯繫表單,只需通過電子郵件發送名稱,電子郵件和消息即可。 所以有一些代碼,我在一對夫婦的教程發現了一些小白混吧「我覺得這個放在這裏」魔術並提出這樣的:那麼 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> </head> <body> <?ph