Refactor SIMD code (#102)

kimwalisch · web-flow · commit 7deb98632be8 · 2026-01-19T21:07:29.000+01:00
diff --git a/src/Sieve_count_simd.hpp b/src/Sieve_count_simd.hpp
@@ -0,0 +1,136 @@
+///
+/// @file  Sieve_count_simd.hpp
+/// @brief Highly optimized code to count the number of 1 bits in
+///        the sieve array using SIMD instructions.
+///
+///        In-depth description of this algorithm:
+///        https://github.com/kimwalisch/primecount/blob/master/doc/Hard-Special-Leaves.pdf
+///
+/// Copyright (C) 2026 Kim Walisch, <kim.walisch@gmail.com>
+///
+/// This file is distributed under the BSD License. See the COPYING
+/// file in the top level directory.
+///
+
+#ifndef SIEVE_COUNT_SIMD_HPP
+#define SIEVE_COUNT_SIMD_HPP
+
+#include <macros.hpp>
+#include <popcnt.hpp>
+
+#include <stdint.h>
+
+#if defined(ENABLE_ARM_SVE) || \
+    defined(ENABLE_MULTIARCH_ARM_SVE)
+  #include <arm_sve.h>
+#elif defined(ENABLE_AVX512_VPOPCNT) || \
+      defined(ENABLE_MULTIARCH_AVX512_VPOPCNT)
+  #include <immintrin.h>
+#endif
+
+/// POPCNT64 /////////////////////////////////////////////////////////
+
+/// Count 1 bits inside [start, stop] using POPCNT64
+#define SIEVE_COUNT_POPCNT64(start, stop) \
+  ASSERT(start <= stop); \
+  ASSERT(stop - start < segment_size()); \
+  uint64_t start_idx = start / 240; \
+  uint64_t stop_idx = stop / 240; \
+  uint64_t m1 = unset_smaller[start % 240]; \
+  uint64_t m2 = unset_larger[stop % 240]; \
+  \
+  /* Branchfree bitmask calculation: */ \
+  /* if (start_idx == stop_idx) m1 = m1 & m2; */ \
+  /* if (start_idx == stop_idx) m2 = 0; */ \
+  CONDITIONAL_MOVE(start_idx == stop_idx, m1, m1 & m2); \
+  CONDITIONAL_MOVE(start_idx == stop_idx, m2, 0); \
+  \
+  const uint64_t* sieve64 = (const uint64_t*) sieve_.data(); \
+  uint64_t start_bits = sieve64[start_idx] & m1; \
+  uint64_t stop_bits = sieve64[stop_idx] & m2; \
+  uint64_t cnt = popcnt64(start_bits); \
+  cnt += popcnt64(stop_bits); \
+  \
+  for (uint64_t i = start_idx + 1; i < stop_idx; i++) \
+    cnt += popcnt64(sieve64[i]);
+
+/// AVX512 ///////////////////////////////////////////////////////////
+
+/// Count 1 bits inside [start, stop] using AVX512
+#define SIEVE_COUNT_AVX512(start, stop) \
+  ASSERT(start <= stop); \
+  ASSERT(stop - start < segment_size()); \
+  uint64_t start_idx = start / 240; \
+  uint64_t stop_idx = stop / 240; \
+  uint64_t m1 = unset_smaller[start % 240]; \
+  uint64_t m2 = unset_larger[stop % 240]; \
+  \
+  /* Branchfree bitmask calculation: */ \
+  /* if (start_idx == stop_idx) m1 = m1 & m2; */ \
+  /* if (start_idx == stop_idx) m2 = 0; */ \
+  CONDITIONAL_MOVE(start_idx == stop_idx, m1, m1 & m2); \
+  CONDITIONAL_MOVE(start_idx == stop_idx, m2, 0); \
+  \
+  const uint64_t* sieve64 = (const uint64_t*) sieve_.data(); \
+  uint64_t start_bits = sieve64[start_idx] & m1; \
+  uint64_t stop_bits = sieve64[stop_idx] & m2; \
+  __m512i vec = _mm512_set_epi64(0, 0, 0, 0, 0, 0, stop_bits, start_bits); \
+  __m512i vcnt = _mm512_popcnt_epi64(vec); \
+  uint64_t i = start_idx + 1; \
+  \
+  /* Compute this for loop using AVX512. */ \
+  /* for (i = start_idx + 1; i < stop_idx; i++) */ \
+  /*   cnt += popcnt64(sieve64[i]); */ \
+  for (; i + 8 < stop_idx; i += 8) \
+  { \
+    vec = _mm512_loadu_epi64(&sieve64[i]); \
+    vec = _mm512_popcnt_epi64(vec); \
+    vcnt = _mm512_add_epi64(vcnt, vec); \
+  } \
+  __mmask8 mask = (__mmask8) (0xff >> (i + 8 - stop_idx)); \
+  vec = _mm512_maskz_loadu_epi64(mask, &sieve64[i]); \
+  vec = _mm512_popcnt_epi64(vec); \
+  vcnt = _mm512_add_epi64(vcnt, vec); \
+  uint64_t cnt = _mm512_reduce_add_epi64(vcnt);
+
+/// ARM SVE //////////////////////////////////////////////////////////
+
+/// Count 1 bits inside [start, stop] using ARM SVE
+#define SIEVE_COUNT_ARM_SVE(start, stop) \
+  ASSERT(start <= stop); \
+  ASSERT(stop - start < segment_size()); \
+  uint64_t start_idx = start / 240; \
+  uint64_t stop_idx = stop / 240; \
+  uint64_t m1 = unset_smaller[start % 240]; \
+  uint64_t m2 = unset_larger[stop % 240]; \
+  \
+  /* Branchfree bitmask calculation: */ \
+  /* if (start_idx == stop_idx) m1 = m1 & m2; */ \
+  /* if (start_idx == stop_idx) m2 = 0; */ \
+  CONDITIONAL_MOVE(start_idx == stop_idx, m1, m1 & m2); \
+  CONDITIONAL_MOVE(start_idx == stop_idx, m2, 0); \
+  \
+  const uint64_t* sieve64 = (const uint64_t*) sieve_.data(); \
+  uint64_t start_bits = sieve64[start_idx] & m1; \
+  uint64_t stop_bits = sieve64[stop_idx] & m2; \
+  ASSERT(svcntd() >= 2); \
+  svuint64_t vec = svinsr_n_u64(svdup_u64(start_bits), stop_bits); \
+  svuint64_t vcnt = svcnt_u64_z(svwhilelt_b64(0, 2), vec); \
+  uint64_t i = start_idx + 1; \
+  \
+  /* Compute this for loop using ARM SVE. */ \
+  /* for (i = start_idx + 1; i < stop_idx; i++) */ \
+  /*   cnt += popcnt64(sieve64[i]); */ \
+  for (; i + svcntd() < stop_idx; i += svcntd()) \
+  { \
+    vec = svld1_u64(svptrue_b64(), &sieve64[i]); \
+    vec = svcnt_u64_x(svptrue_b64(), vec); \
+    vcnt = svadd_u64_x(svptrue_b64(), vcnt, vec); \
+  } \
+  svbool_t pg = svwhilelt_b64(i, stop_idx); \
+  vec = svld1_u64(pg, &sieve64[i]); \
+  vec = svcnt_u64_z(pg, vec); \
+  vcnt = svadd_u64_x(svptrue_b64(), vcnt, vec); \
+  uint64_t cnt = svaddv_u64(svptrue_b64(), vcnt);
+
+#endif
diff --git a/src/Sieve_count_start_stop.hpp b/src/Sieve_count_start_stop.hpp
@@ -16,7 +16,7 @@
 ///        In-depth description of this algorithm:
 ///        https://github.com/kimwalisch/primecount/blob/master/doc/Hard-Special-Leaves.pdf
 ///
-/// Copyright (C) 2025 Kim Walisch, <kim.walisch@gmail.com>
+/// Copyright (C) 2026 Kim Walisch, <kim.walisch@gmail.com>
 ///
 /// This file is distributed under the BSD License. See the COPYING
 /// file in the top level directory.
@@ -26,21 +26,16 @@
 #define SIEVE_COUNT_START_STOP_HPP
 
 #include <Sieve.hpp>
+#include <Sieve_count_simd.hpp>
 #include <cpu_arch_macros.hpp>
 #include <macros.hpp>
 #include <popcnt.hpp>
 
 #include <stdint.h>
 
-#if defined(ENABLE_ARM_SVE)
-  #include <arm_sve.h>
-#elif defined(ENABLE_AVX512_VPOPCNT)
-  #include <immintrin.h>
-#elif defined(ENABLE_MULTIARCH_ARM_SVE)
-  #include <arm_sve.h>
+#if defined(ENABLE_MULTIARCH_ARM_SVE)
   #include <cpu_supports_arm_sve.hpp>
 #elif defined(ENABLE_MULTIARCH_AVX512_VPOPCNT)
-  #include <immintrin.h>
   #include <cpu_supports_avx512_vpopcnt.hpp>
 #endif
 
@@ -124,27 +119,7 @@ uint64_t Sieve::count_popcnt64(uint64_t start, uint64_t stop) const
   if (start > stop)
     return 0;
 
-  ASSERT(stop - start < segment_size());
-  uint64_t start_idx = start / 240;
-  uint64_t stop_idx = stop / 240;
-  uint64_t m1 = unset_smaller[start % 240];
-  uint64_t m2 = unset_larger[stop % 240];
-
-  // Branchfree bitmask calculation:
-  // if (start_idx == stop_idx) m1 = m1 & m2;
-  // if (start_idx == stop_idx) m2 = 0;
-  CONDITIONAL_MOVE(start_idx == stop_idx, m1, m1 & m2);
-  CONDITIONAL_MOVE(start_idx == stop_idx, m2, 0);
-
-  const uint64_t* sieve64 = (const uint64_t*) sieve_.data();
-  uint64_t start_bits = sieve64[start_idx] & m1;
-  uint64_t stop_bits = sieve64[stop_idx] & m2;
-  uint64_t cnt = popcnt64(start_bits);
-  cnt += popcnt64(stop_bits);
-
-  for (uint64_t i = start_idx + 1; i < stop_idx; i++)
-    cnt += popcnt64(sieve64[i]);
-
+  SIEVE_COUNT_POPCNT64(start, stop);
   return cnt;
 }
 
@@ -166,41 +141,8 @@ uint64_t Sieve::count_avx512(uint64_t start, uint64_t stop) const
   if (start > stop)
     return 0;
 
-  ASSERT(stop - start < segment_size());
-  uint64_t start_idx = start / 240;
-  uint64_t stop_idx = stop / 240;
-  uint64_t m1 = unset_smaller[start % 240];
-  uint64_t m2 = unset_larger[stop % 240];
-
-  // Branchfree bitmask calculation:
-  // if (start_idx == stop_idx) m1 = m1 & m2;
-  // if (start_idx == stop_idx) m2 = 0;
-  CONDITIONAL_MOVE(start_idx == stop_idx, m1, m1 & m2);
-  CONDITIONAL_MOVE(start_idx == stop_idx, m2, 0);
-
-  const uint64_t* sieve64 = (const uint64_t*) sieve_.data();
-  uint64_t start_bits = sieve64[start_idx] & m1;
-  uint64_t stop_bits = sieve64[stop_idx] & m2;
-  __m512i vec = _mm512_set_epi64(0, 0, 0, 0, 0, 0, stop_bits, start_bits);
-  __m512i vcnt = _mm512_popcnt_epi64(vec);
-  uint64_t i = start_idx + 1;
-
-  // Compute this for loop using AVX512.
-  // for (i = start_idx + 1; i < stop_idx; i++)
-  //   cnt += popcnt64(sieve64[i]);
-
-  for (; i + 8 < stop_idx; i += 8)
-  {
-    vec = _mm512_loadu_epi64(&sieve64[i]);
-    vec = _mm512_popcnt_epi64(vec);
-    vcnt = _mm512_add_epi64(vcnt, vec);
-  }
-
-  __mmask8 mask = (__mmask8) (0xff >> (i + 8 - stop_idx));
-  vec = _mm512_maskz_loadu_epi64(mask, &sieve64[i]);
-  vec = _mm512_popcnt_epi64(vec);
-  vcnt = _mm512_add_epi64(vcnt, vec);
-  return _mm512_reduce_add_epi64(vcnt);
+  SIEVE_COUNT_AVX512(start, stop);
+  return cnt;
 }
 
 #elif defined(ENABLE_ARM_SVE) || \
@@ -219,42 +161,8 @@ uint64_t Sieve::count_arm_sve(uint64_t start, uint64_t stop) const
   if (start > stop)
     return 0;
 
-  ASSERT(stop - start < segment_size());
-  uint64_t start_idx = start / 240;
-  uint64_t stop_idx = stop / 240;
-  uint64_t m1 = unset_smaller[start % 240];
-  uint64_t m2 = unset_larger[stop % 240];
-
-  // Branchfree bitmask calculation:
-  // if (start_idx == stop_idx) m1 = m1 & m2;
-  // if (start_idx == stop_idx) m2 = 0;
-  CONDITIONAL_MOVE(start_idx == stop_idx, m1, m1 & m2);
-  CONDITIONAL_MOVE(start_idx == stop_idx, m2, 0);
-
-  const uint64_t* sieve64 = (const uint64_t*) sieve_.data();
-  uint64_t start_bits = sieve64[start_idx] & m1;
-  uint64_t stop_bits = sieve64[stop_idx] & m2;
-  ASSERT(svcntd() >= 2);
-  svuint64_t vec = svinsr_n_u64(svdup_u64(start_bits), stop_bits);
-  svuint64_t vcnt = svcnt_u64_z(svwhilelt_b64(0, 2), vec);
-  uint64_t i = start_idx + 1;
-
-  // Compute this for loop using ARM SVE.
-  // for (i = start_idx + 1; i < stop_idx; i++)
-  //   cnt += popcnt64(sieve64[i]);
-
-  for (; i + svcntd() < stop_idx; i += svcntd())
-  {
-    vec = svld1_u64(svptrue_b64(), &sieve64[i]);
-    vec = svcnt_u64_x(svptrue_b64(), vec);
-    vcnt = svadd_u64_x(svptrue_b64(), vcnt, vec);
-  }
-
-  svbool_t pg = svwhilelt_b64(i, stop_idx);
-  vec = svld1_u64(pg, &sieve64[i]);
-  vec = svcnt_u64_z(pg, vec);
-  vcnt = svadd_u64_x(svptrue_b64(), vcnt, vec);
-  return svaddv_u64(svptrue_b64(), vcnt);
+  SIEVE_COUNT_ARM_SVE(start, stop);
+  return cnt;
 }
 
 #endif
diff --git a/src/Sieve_count_stop.hpp b/src/Sieve_count_stop.hpp