sw: Fix GEMM bug when N<unroll (#222)

timber77 · colluca · web-flow · commit 9a024dca4407 · 2025-04-16T19:12:32.000+02:00
---------

Co-authored-by: Luca Colagrande &lt;luca.colagrande3@gmail.com&gt;
diff --git a/sw/blas/gemm/src/gemm_fp16.h b/sw/blas/gemm/src/gemm_fp16.h
@@ -116,28 +116,33 @@ void gemm_fp16_opt(uint32_t M, uint32_t N, uint32_t K, void* A_p, uint32_t ldA,
     // for maximum utilization
     const uint32_t unroll = 8;
 
-    // SSR strides and bounds only have to be configured
-    // once in the beginning
-    if (setup_SSR) {
-        uint32_t ssr0_b[4] = {unroll, K / 4, N / unroll, M};
-        uint32_t ssr0_i[4] = {0, sizeof(__fp16) * 4, 0, sizeof(__fp16) * ldA};
-
-        uint32_t ssr1_b[4] = {unroll, K / 4, N / unroll, M};
-        uint32_t ssr1_i[4] = {sizeof(__fp16) * ldB, sizeof(__fp16) * 4,
-                              sizeof(__fp16) * unroll * ldB, 0};
-
-        snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
-                         ssr0_i[1], ssr0_i[2], ssr0_i[3]);
-        snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
-
-        snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
-                         ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2], ssr1_i[3]);
-    }
+    // Don't enable the SSRs if the stream won't be used
+    if (N >= unroll) {
+        // SSR strides and bounds only have to be configured
+        // once in the beginning
+        if (setup_SSR) {
+            uint32_t ssr0_b[4] = {unroll, K / 4, N / unroll, M};
+            uint32_t ssr0_i[4] = {0, sizeof(__fp16) * 4, 0,
+                                  sizeof(__fp16) * ldA};
+
+            uint32_t ssr1_b[4] = {unroll, K / 4, N / unroll, M};
+            uint32_t ssr1_i[4] = {sizeof(__fp16) * ldB, sizeof(__fp16) * 4,
+                                  sizeof(__fp16) * unroll * ldB, 0};
+
+            snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
+                             ssr0_i[1], ssr0_i[2], ssr0_i[3]);
+            snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
+
+            snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
+                             ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2],
+                             ssr1_i[3]);
+        }
 
-    // SSR start address need to be configured each time
-    snrt_ssr_read(SNRT_SSR_DM0, SNRT_SSR_4D, A);
-    snrt_ssr_read(SNRT_SSR_DM1, SNRT_SSR_4D, B);
-    snrt_ssr_enable();
+        // SSR start address need to be configured each time
+        snrt_ssr_read(SNRT_SSR_DM0, SNRT_SSR_4D, A);
+        snrt_ssr_read(SNRT_SSR_DM1, SNRT_SSR_4D, B);
+        snrt_ssr_enable();
+    }
 
     // Kernel progresses by 4 values each step
     const uint32_t n_frep = K / 4 - 1;
@@ -303,29 +308,34 @@ void gemm_fp16_opt_ex(uint32_t M, uint32_t N, uint32_t K, void* A_p,
     // for maximum utilization
     const uint32_t unroll = 8;
 
-    // SSR strides and bounds only have to be configured
-    // once in the beginning
-    if (setup_SSR) {
-        uint32_t ssr0_b[4] = {unroll, K / 4, N / unroll, M};
-        uint32_t ssr0_i[4] = {0, sizeof(__fp16) * 4, 0, sizeof(__fp16) * ldA};
-
-        uint32_t ssr1_b[4] = {unroll, K / 4, N / unroll, M};
-        uint32_t ssr1_i[4] = {sizeof(__fp16) * ldB, sizeof(__fp16) * 4,
-                              sizeof(__fp16) * unroll * ldB, 0};
-
-        snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
-                         ssr0_i[1], ssr0_i[2], ssr0_i[3]);
-        snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
+    // Don't enable the SSRs if the stream won't be used
+    if (N >= unroll) {
+        // SSR strides and bounds only have to be configured
+        // once in the beginning
+        if (setup_SSR) {
+            uint32_t ssr0_b[4] = {unroll, K / 4, N / unroll, M};
+            uint32_t ssr0_i[4] = {0, sizeof(__fp16) * 4, 0,
+                                  sizeof(__fp16) * ldA};
+
+            uint32_t ssr1_b[4] = {unroll, K / 4, N / unroll, M};
+            uint32_t ssr1_i[4] = {sizeof(__fp16) * ldB, sizeof(__fp16) * 4,
+                                  sizeof(__fp16) * unroll * ldB, 0};
+
+            snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
+                             ssr0_i[1], ssr0_i[2], ssr0_i[3]);
+            snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
+
+            snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
+                             ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2],
+                             ssr1_i[3]);
+        }
 
-        snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
-                         ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2], ssr1_i[3]);
+        // SSR start address need to be configured each time
+        snrt_ssr_read(SNRT_SSR_DM0, SNRT_SSR_4D, A);
+        snrt_ssr_read(SNRT_SSR_DM1, SNRT_SSR_4D, B);
+        snrt_ssr_enable();
     }
 
-    // SSR start address need to be configured each time
-    snrt_ssr_read(SNRT_SSR_DM0, SNRT_SSR_4D, A);
-    snrt_ssr_read(SNRT_SSR_DM1, SNRT_SSR_4D, B);
-    snrt_ssr_enable();
-
     // Kernel progresses by 4 values each step
     const uint32_t n_frep = K / 4 - 1;
 
diff --git a/sw/blas/gemm/src/gemm_fp32.h b/sw/blas/gemm/src/gemm_fp32.h
@@ -216,28 +216,32 @@ void gemm_fp32_opt(uint32_t M, uint32_t N, uint32_t K, void* A_p, uint32_t ldA,
     // for maximum utilization
     const uint32_t unroll = 8;
 
-    // SSR strides and bounds only have to be configured
-    // once in the beginning
-    if (setup_SSR) {
-        uint32_t ssr0_b[4] = {unroll, K / 2, N / unroll, M};
-        uint32_t ssr0_i[4] = {0, sizeof(float) * 2, 0, sizeof(float) * ldA};
+    // Don't enable the SSRs if the stream won't be used
+    if (N >= unroll) {
+        // SSR strides and bounds only have to be configured
+        // once in the beginning
+        if (setup_SSR) {
+            uint32_t ssr0_b[4] = {unroll, K / 2, N / unroll, M};
+            uint32_t ssr0_i[4] = {0, sizeof(float) * 2, 0, sizeof(float) * ldA};
 
-        uint32_t ssr1_b[4] = {unroll, K / 2, N / unroll, M};
-        uint32_t ssr1_i[4] = {sizeof(float) * ldB, sizeof(float) * 2,
-                              sizeof(float) * unroll * ldB, 0};
+            uint32_t ssr1_b[4] = {unroll, K / 2, N / unroll, M};
+            uint32_t ssr1_i[4] = {sizeof(float) * ldB, sizeof(float) * 2,
+                                  sizeof(float) * unroll * ldB, 0};
 
-        snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
-                         ssr0_i[1], ssr0_i[2], ssr0_i[3]);
-        snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
+            snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
+                             ssr0_i[1], ssr0_i[2], ssr0_i[3]);
+            snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
 
-        snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
-                         ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2], ssr1_i[3]);
-    }
+            snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
+                             ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2],
+                             ssr1_i[3]);
+        }
 
-    // SSR start address need to be configured each time
-    snrt_ssr_read(SNRT_SSR_DM0, SNRT_SSR_4D, A);
-    snrt_ssr_read(SNRT_SSR_DM1, SNRT_SSR_4D, B);
-    snrt_ssr_enable();
+        // SSR start address need to be configured each time
+        snrt_ssr_read(SNRT_SSR_DM0, SNRT_SSR_4D, A);
+        snrt_ssr_read(SNRT_SSR_DM1, SNRT_SSR_4D, B);
+        snrt_ssr_enable();
+    }
 
     // Kernel progresses by 2 values each step
     const uint32_t n_frep = K / 2 - 1;
diff --git a/sw/blas/gemm/src/gemm_fp64.h b/sw/blas/gemm/src/gemm_fp64.h
@@ -70,48 +70,51 @@ void gemm_fp64_opt(uint32_t M, uint32_t N, uint32_t K, void* A_p, uint32_t ldA,
     // for maximum utilization
     const uint32_t unroll = 8;
 
-    // SSR strides and bounds only have to be configured
-    // once in the beginning
-    if (setup_SSR) {
-        // First matrix is stored in transposed format
-        if (ta) {
-            const uint32_t ssr0_b[4] = {unroll, K, N / unroll, M};
-            const uint32_t ssr0_i[4] = {0, 8 * ldA, 0, 8 * 8};
-
-            snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
-                             ssr0_i[1], ssr0_i[2], ssr0_i[3]);
-            snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
-        } else {
-            const uint32_t ssr0_b[4] = {unroll, K, N / unroll, M};
-            const uint32_t ssr0_i[4] = {0, 8, 0, 8 * ldA};
-
-            snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
-                             ssr0_i[1], ssr0_i[2], ssr0_i[3]);
-            snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
-        }
+    // Don't enable the SSRs if the stream won't be used
+    if (N >= unroll) {
+        // SSR strides and bounds only have to be configured
+        // once in the beginning
+        if (setup_SSR) {
+            // First matrix is stored in transposed format
+            if (ta) {
+                const uint32_t ssr0_b[4] = {unroll, K, N / unroll, M};
+                const uint32_t ssr0_i[4] = {0, 8 * ldA, 0, 8 * 8};
+
+                snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
+                                 ssr0_i[1], ssr0_i[2], ssr0_i[3]);
+                snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
+            } else {
+                const uint32_t ssr0_b[4] = {unroll, K, N / unroll, M};
+                const uint32_t ssr0_i[4] = {0, 8, 0, 8 * ldA};
+
+                snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
+                                 ssr0_i[1], ssr0_i[2], ssr0_i[3]);
+                snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
+            }
+
+            // Second matrix is stored in transposed format
+            if (tb) {
+                const uint32_t ssr1_b[4] = {unroll, K, N / unroll, M};
+                const uint32_t ssr1_i[4] = {8 * ldB, 8, 8 * ldB * unroll, 0};
 
-        // Second matrix is stored in transposed format
-        if (tb) {
-            const uint32_t ssr1_b[4] = {unroll, K, N / unroll, M};
-            const uint32_t ssr1_i[4] = {8 * ldB, 8, 8 * ldB * unroll, 0};
-
-            snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
-                             ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2],
-                             ssr1_i[3]);
-        } else {
-            const uint32_t ssr1_b[4] = {unroll, K, N / unroll, M};
-            const uint32_t ssr1_i[4] = {8, 8 * ldB, 8 * unroll, 0};
-
-            snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
-                             ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2],
-                             ssr1_i[3]);
+                snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
+                                 ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2],
+                                 ssr1_i[3]);
+            } else {
+                const uint32_t ssr1_b[4] = {unroll, K, N / unroll, M};
+                const uint32_t ssr1_i[4] = {8, 8 * ldB, 8 * unroll, 0};
+
+                snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
+                                 ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2],
+                                 ssr1_i[3]);
+            }
         }
-    }
 
-    // SSR start address need to be configured each time
-    snrt_ssr_read(SNRT_SSR_DM0, SNRT_SSR_4D, A);
-    snrt_ssr_read(SNRT_SSR_DM1, SNRT_SSR_4D, B);
-    snrt_ssr_enable();
+        // SSR start address need to be configured each time
+        snrt_ssr_read(SNRT_SSR_DM0, SNRT_SSR_4D, A);
+        snrt_ssr_read(SNRT_SSR_DM1, SNRT_SSR_4D, B);
+        snrt_ssr_enable();
+    }
 
     for (uint32_t m = 0; m < M; m++) {
         uint32_t n = 0;
diff --git a/sw/blas/gemm/src/gemm_fp8.h b/sw/blas/gemm/src/gemm_fp8.h
@@ -126,28 +126,32 @@ void gemm_fp8_opt_ex(uint32_t M, uint32_t N, uint32_t K, void* A_p,
     // for maximum utilization
     const uint32_t unroll = 8;
 
-    // SSR strides and bounds only have to be configured
-    // once in the beginning
-    if (setup_SSR) {
-        uint32_t ssr0_b[4] = {unroll, K / 8, N / unroll, M};
-        uint32_t ssr0_i[4] = {0, sizeof(char) * 8, 0, sizeof(char) * ldA};
+    // Don't enable the SSRs if the stream won't be used
+    if (N >= unroll) {
+        // SSR strides and bounds only have to be configured
+        // once in the beginning
+        if (setup_SSR) {
+            uint32_t ssr0_b[4] = {unroll, K / 8, N / unroll, M};
+            uint32_t ssr0_i[4] = {0, sizeof(char) * 8, 0, sizeof(char) * ldA};
 
-        uint32_t ssr1_b[4] = {unroll, K / 8, N / unroll, M};
-        uint32_t ssr1_i[4] = {sizeof(char) * ldB, sizeof(char) * 8,
-                              sizeof(char) * unroll * ldB, 0};
+            uint32_t ssr1_b[4] = {unroll, K / 8, N / unroll, M};
+            uint32_t ssr1_i[4] = {sizeof(char) * ldB, sizeof(char) * 8,
+                                  sizeof(char) * unroll * ldB, 0};
 
-        snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
-                         ssr0_i[1], ssr0_i[2], ssr0_i[3]);
-        snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
+            snrt_ssr_loop_3d(SNRT_SSR_DM0, ssr0_b[1], ssr0_b[2], ssr0_b[3],
+                             ssr0_i[1], ssr0_i[2], ssr0_i[3]);
+            snrt_ssr_repeat(SNRT_SSR_DM0, unroll);
 
-        snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
-                         ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2], ssr1_i[3]);
-    }
+            snrt_ssr_loop_4d(SNRT_SSR_DM1, ssr1_b[0], ssr1_b[1], ssr1_b[2],
+                             ssr1_b[3], ssr1_i[0], ssr1_i[1], ssr1_i[2],
+                             ssr1_i[3]);
+        }
 
-    // SSR start address need to be configured each time
-    snrt_ssr_read(SNRT_SSR_DM0, SNRT_SSR_4D, A);
-    snrt_ssr_read(SNRT_SSR_DM1, SNRT_SSR_4D, B);
-    snrt_ssr_enable();
+        // SSR start address need to be configured each time
+        snrt_ssr_read(SNRT_SSR_DM0, SNRT_SSR_4D, A);
+        snrt_ssr_read(SNRT_SSR_DM1, SNRT_SSR_4D, B);
+        snrt_ssr_enable();
+    }
 
     // Kernel progresses by 8 values each step
     const uint32_t n_frep = K / 8 - 1;
diff --git a/sw/snRuntime/src/ssr.h b/sw/snRuntime/src/ssr.h
@@ -25,6 +25,10 @@
  * The convenience functions provided in this file can be used to set up such
  * access patterns. The function argument names reflect the variable names
  * presented in these sample code snippets.
+ *
+ * Note: The exact number of elements configured in an (I)SSR stream must be
+ * consumed. Failure to comply with this requirement will result in undefined
+ * behaviour.
  */
 
 #pragma once