FA-2: revert latest minifloat chanegs due to missing TCDM dyn alloc

Viviane Potocnik · Viviane Potocnik · commit 8b52aa5f3764 · 2024-05-30T14:40:27.000+02:00
diff --git a/sw/dnn/flashattention_2/src/flashattention_2_fp16.h b/sw/dnn/flashattention_2/src/flashattention_2_fp16.h
@@ -40,21 +40,35 @@ static inline void flashattention_2_fp16(flashattention_2_layer_t layer) {
     uint32_t m_i_size = B_r * sizeof(float);
     uint32_t m_i_prev_size = m_i_size;
     uint32_t l_i_size = B_r * sizeof(float);
+    uint32_t shifted_exp_size = B_r * sizeof(float);
 
     // allocate memory in TCDM
-    __fp16 *Q_fa = snrt_l1_alloc_cluster_local(q_fa_size, sizeof(__fp16));
-    __fp16 *K_fa = snrt_l1_alloc_cluster_local(k_fa_size, sizeof(__fp16));
-    __fp16 *V_fa = snrt_l1_alloc_cluster_local(v_fa_size, sizeof(__fp16));
-    __fp16 *S_fa = snrt_l1_alloc_cluster_local(s_fa_size, sizeof(__fp16));
-    __fp16 *P_fa = snrt_l1_alloc_cluster_local(p_fa_size, sizeof(__fp16));
-    __fp16 *O_fa = snrt_l1_alloc_cluster_local(o_fa_size, sizeof(__fp16));
-    float *m_i = snrt_l1_alloc_cluster_local(m_i_size, sizeof(float));
-    float *m_i_prev = snrt_l1_alloc_cluster_local(m_i_prev_size, sizeof(float));
-    float *l_i = snrt_l1_alloc_cluster_local(l_i_size, sizeof(float));
-
-    // allocate space for V^t when using optimized kernels
+    void *tcdm_ptr = (__fp16 *)snrt_l1_next();
+    __fp16 *Q_fa = tcdm_ptr;
+    tcdm_ptr += q_fa_size;
+    __fp16 *K_fa = tcdm_ptr;
+    tcdm_ptr += k_fa_size;
+    __fp16 *V_fa = tcdm_ptr;
+    tcdm_ptr += v_fa_size;
+    __fp16 *S_fa = tcdm_ptr;
+    tcdm_ptr += s_fa_size;
+    __fp16 *P_fa = tcdm_ptr;
+    tcdm_ptr += p_fa_size;
+    __fp16 *O_fa = tcdm_ptr;
+    tcdm_ptr += o_fa_size;
+    float *m_i = tcdm_ptr;
+    tcdm_ptr += m_i_size;
+    float *m_i_prev = tcdm_ptr;
+    tcdm_ptr += m_i_prev_size;
+    float *l_i = tcdm_ptr;
+    tcdm_ptr += l_i_size;
+
+    // Allocate space for V^t
     __fp16 *V_t;
-    if (!baseline) V_t = snrt_l1_alloc_cluster_local(v_fa_size, sizeof(__fp16));
+    if (!baseline) {
+        V_t = tcdm_ptr;
+        tcdm_ptr += B_c * d * sizeof(__fp16);
+    }
 
     float shifted_exp;
     float row_sum;
@@ -105,6 +119,7 @@ static inline void flashattention_2_fp16(flashattention_2_layer_t layer) {
 
         // Iterate column blocks of K (corresponding to row blocks of V)
         for (int t_c = 0; t_c < T_c; t_c++) {
+
             // DMA copy K column block (B_c, d) and V row block (B_c, d) to
             // TCDM. Both K and V are stored in (S, d) form in memory
             if (!snrt_is_compute_core()) {
@@ -199,7 +214,7 @@ static inline void flashattention_2_fp16(flashattention_2_layer_t layer) {
                         beta = 0;
                     else
                         beta = 1;
-                    sc_st_gemm(dtype, 1, 0, 0, B_r, d, B_c, 1, P_fa, B_c, V_fa,
+                    sc_st_gemm(dtype, 0, 0, 0, B_r, d, B_c, 1, P_fa, B_c, V_fa,
                                d, beta, O_fa, d, gemm_implementation);
                 } else {
                     // The SIMD-optimized GEMM kernel performs the A*B^t
@@ -217,7 +232,7 @@ static inline void flashattention_2_fp16(flashattention_2_layer_t layer) {
                         beta = 0;
                     else
                         beta = 1;
-                    sc_st_gemm(dtype, 1, 0, 1, B_r, d, B_c, 1, P_fa, B_c, V_t,
+                    sc_st_gemm(dtype, 0, 0, 1, B_r, d, B_c, 1, P_fa, B_c, V_t,
                                B_c, beta, O_fa, d, gemm_implementation);
                 }
             } else {
@@ -231,6 +246,7 @@ static inline void flashattention_2_fp16(flashattention_2_layer_t layer) {
             snrt_mcycle();
         }  // end of T_c loop
 
+
         // Rescaling for last t_c iteration
         // O_i = diag(l_i_Tc)^-1 * O_i
         if (snrt_is_compute_core()) {
@@ -240,6 +256,7 @@ static inline void flashattention_2_fp16(flashattention_2_layer_t layer) {
                 }
             }
         }
+
         snrt_fpu_fence();
         snrt_cluster_hw_barrier();
 
diff --git a/sw/dnn/flashattention_2/src/flashattention_2_fp32.h b/sw/dnn/flashattention_2/src/flashattention_2_fp32.h
@@ -40,21 +40,35 @@ static inline void flashattention_2_fp32(flashattention_2_layer_t layer) {
     uint32_t m_i_size = B_r * sizeof(float);
     uint32_t m_i_prev_size = m_i_size;
     uint32_t l_i_size = B_r * sizeof(float);
+    uint32_t shifted_exp_size = B_r * sizeof(float);
 
     // allocate memory in TCDM
-    float *Q_fa = snrt_l1_alloc_cluster_local(q_fa_size, sizeof(float));
-    float *K_fa = snrt_l1_alloc_cluster_local(k_fa_size, sizeof(float));
-    float *V_fa = snrt_l1_alloc_cluster_local(v_fa_size, sizeof(float));
-    float *S_fa = snrt_l1_alloc_cluster_local(s_fa_size, sizeof(float));
-    float *P_fa = snrt_l1_alloc_cluster_local(p_fa_size, sizeof(float));
-    float *O_fa = snrt_l1_alloc_cluster_local(o_fa_size, sizeof(float));
-    float *m_i = snrt_l1_alloc_cluster_local(m_i_size, sizeof(float));
-    float *m_i_prev = snrt_l1_alloc_cluster_local(m_i_prev_size, sizeof(float));
-    float *l_i = snrt_l1_alloc_cluster_local(l_i_size, sizeof(float));
+    void *tcdm_ptr = (float *)snrt_l1_next();
+    float *Q_fa = tcdm_ptr;
+    tcdm_ptr += q_fa_size;
+    float *K_fa = tcdm_ptr;
+    tcdm_ptr += k_fa_size;
+    float *V_fa = tcdm_ptr;
+    tcdm_ptr += v_fa_size;
+    float *S_fa = tcdm_ptr;
+    tcdm_ptr += s_fa_size;
+    float *P_fa = tcdm_ptr;
+    tcdm_ptr += p_fa_size;
+    float *O_fa = tcdm_ptr;
+    tcdm_ptr += o_fa_size;
+    float *m_i = tcdm_ptr;
+    tcdm_ptr += m_i_size;
+    float *m_i_prev = tcdm_ptr;
+    tcdm_ptr += m_i_prev_size;
+    float *l_i = tcdm_ptr;
+    tcdm_ptr += l_i_size;
 
     // allocate space for V^t when using optimized kernels
     float *V_t;
-    if (!baseline) V_t = snrt_l1_alloc_cluster_local(v_fa_size, sizeof(float));
+    if (!baseline) {
+        V_t = tcdm_ptr;
+        tcdm_ptr += B_c * d * sizeof(float);
+    }
 
     float shifted_exp;
     float row_sum;
@@ -196,7 +210,7 @@ static inline void flashattention_2_fp32(flashattention_2_layer_t layer) {
                         beta = 0;
                     else
                         beta = 1;
-                    sc_st_gemm(dtype, 1, 0, 0, B_r, d, B_c, 1, P_fa, B_c, V_fa,
+                    sc_st_gemm(dtype, 0, 0, 0, B_r, d, B_c, 1, P_fa, B_c, V_fa,
                                d, beta, O_fa, d, gemm_implementation);
                 } else {
                     // The SIMD-optimized GEMM kernel performs the A*B^t
@@ -214,7 +228,7 @@ static inline void flashattention_2_fp32(flashattention_2_layer_t layer) {
                         beta = 0;
                     else
                         beta = 1;
-                    sc_st_gemm(dtype, 1, 0, 1, B_r, d, B_c, 1, P_fa, B_c, V_t,
+                    sc_st_gemm(dtype, 0, 0, 1, B_r, d, B_c, 1, P_fa, B_c, V_t,
                                B_c, beta, O_fa, d, gemm_implementation);
                 }
             } else {
diff --git a/sw/dnn/flashattention_2/src/flashattention_2_fp8.h b/sw/dnn/flashattention_2/src/flashattention_2_fp8.h
@@ -61,21 +61,35 @@ static inline void flashattention_2_fp8(flashattention_2_layer_t layer) {
     uint32_t m_i_size = B_r * sizeof(float);
     uint32_t m_i_prev_size = m_i_size;
     uint32_t l_i_size = B_r * sizeof(float);
+    uint32_t shifted_exp_size = B_r * sizeof(float);
 
     // allocate memory in TCDM
-    char *Q_fa = snrt_l1_alloc_cluster_local(q_fa_size, sizeof(char));
-    char *K_fa = snrt_l1_alloc_cluster_local(k_fa_size, sizeof(char));
-    char *V_fa = snrt_l1_alloc_cluster_local(v_fa_size, sizeof(char));
-    char *S_fa = snrt_l1_alloc_cluster_local(s_fa_size, sizeof(char));
-    char *P_fa = snrt_l1_alloc_cluster_local(p_fa_size, sizeof(char));
-    char *O_fa = snrt_l1_alloc_cluster_local(o_fa_size, sizeof(char));
-    float *m_i = snrt_l1_alloc_cluster_local(m_i_size, sizeof(float));
-    float *m_i_prev = snrt_l1_alloc_cluster_local(m_i_prev_size, sizeof(float));
-    float *l_i = snrt_l1_alloc_cluster_local(l_i_size, sizeof(float));
-
-    // allocate space for V^t when using optimized kernels
+    void *tcdm_ptr = (char *)snrt_l1_next();
+    char *Q_fa = tcdm_ptr;
+    tcdm_ptr += q_fa_size;
+    char *K_fa = tcdm_ptr;
+    tcdm_ptr += k_fa_size;
+    char *V_fa = tcdm_ptr;
+    tcdm_ptr += v_fa_size;
+    char *S_fa = tcdm_ptr;
+    tcdm_ptr += s_fa_size;
+    char *P_fa = tcdm_ptr;
+    tcdm_ptr += p_fa_size;
+    char *O_fa = tcdm_ptr;
+    tcdm_ptr += o_fa_size;
+    float *m_i = tcdm_ptr;
+    tcdm_ptr += m_i_size;
+    float *m_i_prev = tcdm_ptr;
+    tcdm_ptr += m_i_prev_size;
+    float *l_i = tcdm_ptr;
+    tcdm_ptr += l_i_size;
+
+    // Allocate space for V^t
     char *V_t;
-    if (!baseline) V_t = snrt_l1_alloc_cluster_local(v_fa_size, sizeof(char));
+    if(!baseline) {
+        V_t = tcdm_ptr;
+        tcdm_ptr += B_c * d * sizeof(char);
+    }
 
     float shifted_exp;
     float row_sum;
@@ -85,6 +99,7 @@ static inline void flashattention_2_fp8(flashattention_2_layer_t layer) {
     // Iterate row blocks of Q
     for (int t_r = 0; t_r < T_r; t_r++) {
         // DMA copy Q row block to TCDM
+        uint32_t start_dma = snrt_mcycle();
         if (snrt_is_dm_core()) {
             snrt_dma_load_2d_tile(Q_fa,         // dst
                                   Q_l3,         // src
@@ -97,6 +112,8 @@ static inline void flashattention_2_fp8(flashattention_2_layer_t layer) {
             );
             snrt_dma_wait_all();
         }
+        uint32_t end_dma = snrt_mcycle();
+
         snrt_cluster_hw_barrier();
 
         snrt_mcycle();
@@ -224,7 +241,7 @@ static inline void flashattention_2_fp8(flashattention_2_layer_t layer) {
                         beta = 0;
                     else
                         beta = 1;
-                    sc_st_gemm(dtype, 1, 0, 0, B_r, d, B_c, 1, P_fa, B_c, V_fa,
+                    sc_st_gemm(dtype, 0, 0, 0, B_r, d, B_c, 1, P_fa, B_c, V_fa,
                                d, beta, O_fa, d, gemm_implementation);
                 } else {
                     // The SIMD-optimized GEMM kernel performs the A*B^t
@@ -242,7 +259,7 @@ static inline void flashattention_2_fp8(flashattention_2_layer_t layer) {
                         beta = 0;
                     else
                         beta = 1;
-                    sc_st_gemm(dtype, 1, 0, 1, B_r, d, B_c, 1, P_fa, B_c, V_t,
+                    sc_st_gemm(dtype, 0, 0, 1, B_r, d, B_c, 1, P_fa, B_c, V_t,
                                B_c, beta, O_fa, d, gemm_implementation);
                 }
             } else {
@@ -267,6 +284,7 @@ static inline void flashattention_2_fp8(flashattention_2_layer_t layer) {
                 }
             }
         }
+
         snrt_fpu_fence();
         snrt_cluster_hw_barrier();
 
@@ -285,6 +303,7 @@ static inline void flashattention_2_fp8(flashattention_2_layer_t layer) {
             );
             snrt_dma_wait_all();
         }
+
         snrt_cluster_hw_barrier();
 
         snrt_mcycle();