perform scaling with the initial normalization as final normalization is no longer needed.

mjosaarinen · mjosaarinen · commit b31855db1d7c · 2025-10-12T07:54:24.000+01:00
Signed-off-by: Markku-Juhani O. Saarinen &lt;mjos@iki.fi&gt;
diff --git a/mlkem/src/native/riscv64/src/rv64v_poly.c b/mlkem/src/native/riscv64/src/rv64v_poly.c
@@ -389,9 +389,9 @@ static vint16m2_t mlk_rv64v_intt2(vint16m2_t vp, vint16m1_t cz)
   t0 = __riscv_vget_v_i16m2_i16m1(vp, 0);
   t1 = __riscv_vget_v_i16m2_i16m1(vp, 1);
 
-  /*	move to positive range [0, q-1] for the reverse transform */
-  t0 = fq_mulq_vx(t0, MLK_RVV_MONT_R1, vl);
-  t1 = fq_mulq_vx(t1, MLK_RVV_MONT_R1, vl);
+  /*	pre-scale and move to positive range [0, q-1] for inverse transform */
+  t0 = fq_mulq_vx(t0, MLK_RVV_MONT_NR, vl);
+  t1 = fq_mulq_vx(t1, MLK_RVV_MONT_NR, vl);
 
   c0 = __riscv_vrgather_vv_i16m1(cz, cs2, vl);
   MLK_RVV_BFLY_RV(t0, t1, vt, c0, vl);
@@ -512,23 +512,6 @@ void mlk_rv64v_poly_invntt_tomont(int16_t *r)
   MLK_RVV_BFLY_RX(v6, ve, vt, izeta[0x01], vl);
   MLK_RVV_BFLY_RX(v7, vf, vt, izeta[0x01], vl);
 
-  v0 = fq_mulq_vx(v0, MLK_RVV_MONT_NR, vl);
-  v1 = fq_mulq_vx(v1, MLK_RVV_MONT_NR, vl);
-  v2 = fq_mulq_vx(v2, MLK_RVV_MONT_NR, vl);
-  v3 = fq_mulq_vx(v3, MLK_RVV_MONT_NR, vl);
-  v4 = fq_mulq_vx(v4, MLK_RVV_MONT_NR, vl);
-  v5 = fq_mulq_vx(v5, MLK_RVV_MONT_NR, vl);
-  v6 = fq_mulq_vx(v6, MLK_RVV_MONT_NR, vl);
-  v7 = fq_mulq_vx(v7, MLK_RVV_MONT_NR, vl);
-  v8 = fq_mulq_vx(v8, MLK_RVV_MONT_NR, vl);
-  v9 = fq_mulq_vx(v9, MLK_RVV_MONT_NR, vl);
-  va = fq_mulq_vx(va, MLK_RVV_MONT_NR, vl);
-  vb = fq_mulq_vx(vb, MLK_RVV_MONT_NR, vl);
-  vc = fq_mulq_vx(vc, MLK_RVV_MONT_NR, vl);
-  vd = fq_mulq_vx(vd, MLK_RVV_MONT_NR, vl);
-  ve = fq_mulq_vx(ve, MLK_RVV_MONT_NR, vl);
-  vf = fq_mulq_vx(vf, MLK_RVV_MONT_NR, vl);
-
   __riscv_vse16_v_i16m1(&r[0x00], v0, vl);
   __riscv_vse16_v_i16m1(&r[0x10], v1, vl);
   __riscv_vse16_v_i16m1(&r[0x20], v2, vl);