check for __FMA__ in case of SSE/AVX

Arnaud De-Mattia · Arnaud De-Mattia · commit 70797ec5a860 · 2021-10-05T10:20:07.000+02:00
diff --git a/common.mk b/common.mk
@@ -331,7 +331,7 @@ ifeq ($(DO_CHECKS), 1)
     CFLAGS += -funroll-loops
     CFLAGS += -march=native -fno-strict-aliasing
     CFLAGS += -Wformat=2  -Wpacked  -Wnested-externs -Wpointer-arith  -Wredundant-decls  -Wfloat-equal -Wcast-qual
-    CFLAGS +=  -Wcast-align -Wmissing-declarations -Wmissing-prototypes  -Wnested-externs -Wstrict-prototypes  #-D_POSIX_C_SOURCE=2 -Wpadded -Wconversion
+    CFLAGS += -Wcast-align -Wmissing-declarations -Wmissing-prototypes  -Wnested-externs -Wstrict-prototypes  #-D_POSIX_C_SOURCE=2 -Wpadded -Wconversion
     CFLAGS += -Wno-unused-local-typedefs ## to suppress the unused typedef warning for the compile time assert for sizeof(struct config_options)
 
     # if TESTS are being run then add the -fsanitize options
diff --git a/theory/DD/countpairs_kernels.c.src b/theory/DD/countpairs_kernels.c.src
@@ -49,7 +49,7 @@ static inline int countpairs_avx512_intrinsics_DOUBLE(const int64_t N0, DOUBLE *
     }
     const int32_t need_rpavg = src_rpavg != NULL;
     const int32_t need_weightavg = src_weightavg != NULL;
-    const DOUBLE sqr_rpmin=rpmin*rpmin, sqr_rpmax=rpmax*rpmax;
+    const DOUBLE sqr_rpmax=rpmax*rpmax;
     AVX512_FLOATS m_inv_rpstep = AVX512_SETZERO_FLOAT();
     AVX512_FLOATS m_rpmin_invstep = AVX512_SETZERO_FLOAT();
     if (bin_type == BIN_LIN) {
diff --git a/theory/DDrppi/countpairs_rp_pi_kernels.c.src b/theory/DDrppi/countpairs_rp_pi_kernels.c.src
@@ -43,7 +43,7 @@ static inline int countpairs_rp_pi_avx512_intrinsics_DOUBLE(const int64_t N0, DO
 
     const int32_t need_rpavg = src_rpavg != NULL;
     const int32_t need_weightavg = src_weightavg != NULL;
-    const DOUBLE sqr_rpmin=rpmin*rpmin, sqr_rpmax=rpmax*rpmax;
+    const DOUBLE sqr_rpmax=rpmax*rpmax;
     AVX512_FLOATS m_inv_rpstep = AVX512_SETZERO_FLOAT();
     AVX512_FLOATS m_rpmin_invstep = AVX512_SETZERO_FLOAT();
     if (bin_type == BIN_LIN) {
diff --git a/theory/DDsmu/countpairs_s_mu_kernels.c.src b/theory/DDsmu/countpairs_s_mu_kernels.c.src
@@ -43,7 +43,7 @@ static inline int countpairs_s_mu_avx512_intrinsics_DOUBLE(const int64_t N0, DOU
 
     const int32_t need_savg = src_savg != NULL;
     const int32_t need_weightavg = src_weightavg != NULL;
-    const DOUBLE sqr_smin=smin*smin, sqr_smax=smax*smax;
+    const DOUBLE sqr_smax=smax*smax;
     AVX512_FLOATS m_inv_sstep = AVX512_SETZERO_FLOAT();
     AVX512_FLOATS m_smin_invstep = AVX512_SETZERO_FLOAT();
     if (bin_type == BIN_LIN) {
diff --git a/theory/wp/wp_kernels.c.src b/theory/wp/wp_kernels.c.src
@@ -48,7 +48,7 @@ static inline int wp_avx512_intrinsics_DOUBLE(DOUBLE *x0, DOUBLE *y0, DOUBLE *z0
     }
     const int32_t need_rpavg = src_rpavg != NULL;
     const int32_t need_weightavg = src_weightavg != NULL;
-    const DOUBLE sqr_rpmin=rpmin*rpmin, sqr_rpmax=rpmax*rpmax;
+    const DOUBLE sqr_rpmax=rpmax*rpmax;
     AVX512_FLOATS m_inv_rpstep = AVX512_SETZERO_FLOAT();
     AVX512_FLOATS m_rpmin_invstep = AVX512_SETZERO_FLOAT();
     if (bin_type == BIN_LIN) {
diff --git a/theory/xi/xi_kernels.c.src b/theory/xi/xi_kernels.c.src
@@ -50,7 +50,7 @@ static inline int xi_avx512_intrinsics_DOUBLE(DOUBLE *x1, DOUBLE *y1, DOUBLE *z1
     }
     const int32_t need_rpavg = src_rpavg != NULL;
     const int32_t need_weightavg = src_weightavg != NULL;
-    const DOUBLE sqr_rmin=rmin*rmin, sqr_rmax=rmax*rmax;
+    const DOUBLE sqr_rmax=rmax*rmax;
     AVX512_FLOATS m_inv_rpstep = AVX512_SETZERO_FLOAT();
     AVX512_FLOATS m_rpmin_invstep = AVX512_SETZERO_FLOAT();
     if (bin_type == BIN_LIN) {
diff --git a/utils/avx512_calls.c b/utils/avx512_calls.c
@@ -28,7 +28,7 @@ const uint16_t masks_per_misalignment_value_float[] = {0b1111111111111111,
                                                        0b0111111111111111};
 
 const int64_t bits_set_in_avx512_mask_double[] = { B8(0) };
-const uint8_t masks_per_misalignment_value_double[] = {0b11111111, 
+const uint8_t masks_per_misalignment_value_double[] = {0b11111111,
                                                        0b00000001,
                                                        0b00000011,
                                                        0b00000111,
diff --git a/utils/avx512_calls.h b/utils/avx512_calls.h
@@ -111,7 +111,7 @@ extern "C" {
 #define AVX512_MASK_FMA_ADD_FLOATS(X, MASK, Y, Z)                 _mm512_mask_fmadd_ps(X, MASK, Y, Z)
 #define AVX512_MASKZ_FMA_ADD_FLOATS(X, MASK, Y, Z)                _mm512_maskz_fmadd_ps(MASK, X, Y, Z)
 #define AVX512_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z)                     _mm512_fmadd_round_ps(X, Y, Z, _MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
-#define AVX512_MASKZ_FMA_ADD_TRUNCATE_FLOATS(MASK, X,Y,Z)         _mm512_fmadd_maskz_round_ps(MASK, X, Y, Z, _MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
+#define AVX512_MASKZ_FMA_ADD_TRUNCATE_FLOATS(MASK, X,Y,Z)         _mm512_maskz_fmadd_round_ps(MASK, X, Y, Z, _MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
 
   /* returns Z - XY*/
 #define AVX512_FNMA_ADD_FLOATS(X, Y, Z)                           _mm512_fnmadd_ps(X, Y, Z)
@@ -243,8 +243,8 @@ extern "C" {
 #define AVX512_SUBTRACT_FLOATS(X,Y)                               _mm512_sub_pd(X,Y)
 #define AVX512_MASK_SUBTRACT_FLOATS(FALSEVALS, MASK, X,Y)         _mm512_mask_sub_pd(FALSEVALS, MASK, X,Y)
 #define AVX512_MASKZ_SUBTRACT_FLOATS(MASK, X,Y)                   _mm512_maskz_sub_pd(MASK, X,Y)
-
-
+#define AVX512_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z)                     _mm512_fmadd_round_pd(X, Y, Z, _MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
+#define AVX512_MASKZ_FMA_ADD_TRUNCATE_FLOATS(MASK, X,Y,Z)         _mm512_maskz_fmadd_round_pd(MASK, X, Y, Z, _MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
 
 /* returns Z + XY*/
 #define AVX512_FMA_ADD_FLOATS(X,Y,Z)                              _mm512_fmadd_pd(X,Y,Z)
diff --git a/utils/avx_calls.h b/utils/avx_calls.h
@@ -62,8 +62,12 @@ extern "C" {
 #define AVX_SET_FLOAT(X)                 _mm256_set1_ps(X)
 
 /* returns Z + XY*/
+#ifdef __FMA__
 #define AVX_FMA_ADD_FLOATS(X,Y,Z)          _mm256_fmadd_ps(X,Y,Z)
-#define AVX_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z) _mm256_round_ps(_mm256_fmadd_ps(X,Y,Z),_MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
+#else
+#define AVX_FMA_ADD_FLOATS(X,Y,Z)          _mm256_add_ps(_mm256_mul_ps(X,Y),Z)
+#endif
+#define AVX_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z) _mm256_round_ps(AVX_FMA_ADD_FLOATS(X,Y,Z),_MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
 
 // X OP Y
 #define AVX_COMPARE_FLOATS(X,Y,OP)        _mm256_cmp_ps(X,Y,OP)
@@ -82,11 +86,11 @@ extern "C" {
 #ifdef  __INTEL_COMPILER
 #define AVX_ARC_COSINE(X, order)                 _mm256_acos_ps(X)
 #else
-    //Other compilers do not have the vectorized arc-cosine
+//Other compilers do not have the vectorized arc-cosine
 #define AVX_ARC_COSINE(X, order)                  inv_cosine_avx(X, order)
 #endif
 
-    //Max
+//Max
 #define AVX_MAX_FLOATS(X,Y)               _mm256_max_ps(X,Y)
 
 
@@ -127,8 +131,12 @@ extern "C" {
 #define AVX_RECIPROCAL_FLOATS(X)         _mm256_rcp_pd(X)
 
 /* returns Z + XY*/
+#ifdef __FMA__
 #define AVX_FMA_ADD_FLOATS(X,Y,Z)          _mm256_fmadd_pd(X,Y,Z)
-#define AVX_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z) _mm256_round_pd(_mm256_fmadd_pd(X,Y,Z),_MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
+#else
+#define AVX_FMA_ADD_FLOATS(X,Y,Z)          _mm256_add_pd(_mm256_mul_pd(X,Y),Z)
+#endif
+#define AVX_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z) _mm256_round_pd(AVX_FMA_ADD_FLOATS(X,Y,Z),_MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
 
 // X OP Y
 #define AVX_COMPARE_FLOATS(X,Y,OP)        _mm256_cmp_pd(X,Y,OP)
diff --git a/utils/sse_calls.h b/utils/sse_calls.h
@@ -61,10 +61,12 @@ extern "C" {
 #define SSE_ABS_FLOAT(X)                  _mm_max_ps(_mm_sub_ps(_mm_setzero_ps(), X), X)
 
 /* returns Z + XY*/
+#ifdef __FMA__
 #define SSE_FMA_ADD_FLOATS(X,Y,Z)          _mm_fmadd_ps(X,Y,Z)
-//#define SSE_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z) _mm_fmadd_round_ss(X,Y,Z,_MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
-#define SSE_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z) _mm_round_ps(_mm_fmadd_ps(X,Y,Z),_MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
-
+#else
+#define SSE_FMA_ADD_FLOATS(X,Y,Z)          _mm_add_ps(_mm_mul_ps(X,Y),Z)
+#endif
+#define SSE_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z) _mm_round_ps(SSE_FMA_ADD_FLOATS(X,Y,Z),_MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
 
 #ifdef  __INTEL_COMPILER
 #define SSE_ARC_COSINE(X, order)                 _mm_acos_ps(X)
@@ -122,9 +124,12 @@ extern "C" {
 #define SSE_ABS_FLOAT(X)                  _mm_max_pd(_mm_sub_pd(_mm_setzero_pd(), X), X)
 
 /* returns Z + XY*/
-#define SSE_FMA_ADD_FLOATS(X,Y,Z)           _mm_fmadd_pd(X,Y,Z)
-//#define SSE_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z) _mm_fmadd_round_sd(X,Y,Z,_MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
-#define SSE_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z) _mm_round_pd(_mm_fmadd_pd(X,Y,Z),_MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
+#ifdef __FMA__
+#define SSE_FMA_ADD_FLOATS(X,Y,Z)          _mm_fmadd_pd(X,Y,Z)
+#else
+#define SSE_FMA_ADD_FLOATS(X,Y,Z)          _mm_add_pd(_mm_mul_pd(X,Y),Z)
+#endif
+#define SSE_FMA_ADD_TRUNCATE_FLOATS(X,Y,Z) _mm_round_pd(SSE_FMA_ADD_FLOATS(X,Y,Z),_MM_FROUND_TO_ZERO|_MM_FROUND_NO_EXC)
 
 #endif
 

Original file line number	Diff line number	Diff line change
`@@ -49,7 +49,7 @@ static inline int countpairs_avx512_intrinsics_DOUBLE(const int64_t N0, DOUBLE *`
`49`	`49`	`}`
`50`	`50`	`const int32_t need_rpavg = src_rpavg != NULL;`
`51`	`51`	`const int32_t need_weightavg = src_weightavg != NULL;`
`52`		`- const DOUBLE sqr_rpmin=rpminrpmin, sqr_rpmax=rpmaxrpmax;`
	`52`	`+ const DOUBLE sqr_rpmax=rpmax*rpmax;`
`53`	`53`	`AVX512_FLOATS m_inv_rpstep = AVX512_SETZERO_FLOAT();`
`54`	`54`	`AVX512_FLOATS m_rpmin_invstep = AVX512_SETZERO_FLOAT();`
`55`	`55`	`if (bin_type == BIN_LIN) {`
Original file line number	Diff line number	Diff line change
`@@ -48,7 +48,7 @@ static inline int wp_avx512_intrinsics_DOUBLE(DOUBLE x0, DOUBLE y0, DOUBLE *z0`
`48`	`48`	`}`
`49`	`49`	`const int32_t need_rpavg = src_rpavg != NULL;`
`50`	`50`	`const int32_t need_weightavg = src_weightavg != NULL;`
`51`		`- const DOUBLE sqr_rpmin=rpminrpmin, sqr_rpmax=rpmaxrpmax;`
	`51`	`+ const DOUBLE sqr_rpmax=rpmax*rpmax;`
`52`	`52`	`AVX512_FLOATS m_inv_rpstep = AVX512_SETZERO_FLOAT();`
`53`	`53`	`AVX512_FLOATS m_rpmin_invstep = AVX512_SETZERO_FLOAT();`
`54`	`54`	`if (bin_type == BIN_LIN) {`
Original file line number	Diff line number	Diff line change
`@@ -50,7 +50,7 @@ static inline int xi_avx512_intrinsics_DOUBLE(DOUBLE x1, DOUBLE y1, DOUBLE *z1`
`50`	`50`	`}`
`51`	`51`	`const int32_t need_rpavg = src_rpavg != NULL;`
`52`	`52`	`const int32_t need_weightavg = src_weightavg != NULL;`
`53`		`- const DOUBLE sqr_rmin=rminrmin, sqr_rmax=rmaxrmax;`
	`53`	`+ const DOUBLE sqr_rmax=rmax*rmax;`
`54`	`54`	`AVX512_FLOATS m_inv_rpstep = AVX512_SETZERO_FLOAT();`
`55`	`55`	`AVX512_FLOATS m_rpmin_invstep = AVX512_SETZERO_FLOAT();`
`56`	`56`	`if (bin_type == BIN_LIN) {`