Add async prefetch overlap to single-warp-group pipeline

Move next iteration's K/V global loads (K_mem_load, V_mem_load) to immediately after the barrier, before PV GEMM and K LDS read. This overlaps the async global->LDS copies with the current iteration's GEMM compute. Also remove redundant barriers between PV and QK phases since K/V use separate LDS regions (no read/write conflicts). Benchmark improvement (64-seq decode, d64 GQA-8): Phase 1: 0.03564ms -> Phase 2: 0.03406ms (~4.6% faster) Total vs original baseline: 0.06177ms -> 0.03406ms (1.81x speedup) Made-with: Cursor
2026-06-29 11:16:59 +00:00 · 2026-03-28 10:47:45 +00:00
parent 583b017321
commit 8d396d29f0
1 changed files with 20 additions and 20 deletions
--- a/include/ck_tile/ops/unified_attention/pipeline/unified_attention_pipeline.hpp
+++ b/include/ck_tile/ops/unified_attention/pipeline/unified_attention_pipeline.hpp
@@ -962,7 +962,7 @@ struct UnifiedAttentionPipeline
        {
            if constexpr(NumWarpGroups == 1)
            {
-                // --- Single warp group: serial pipeline ---
+                // --- Single warp group: serial pipeline with async prefetch ---
                // After pre-stage:
                //   sp(0) has QK for block 0 (alu0 + alu_D_upd done, alu1 NOT done)
                //   V0 loading to LDS (V buf 0)
@@ -973,17 +973,16 @@ struct UnifiedAttentionPipeline
                s_waitcnt_vmcnt<0>();
                __builtin_amdgcn_s_barrier();

-                V_lds_load(number<0>{}); // V0 from LDS
+                V_mem_load(number<1>{}); // prefetch V1 -> buf 1 (overlaps with compute)
+
+                V_lds_load(number<0>{}); // V0 from LDS -> kv_tile.v_tile
                s_waitcnt_lgkmcnt<0>();
                fmha_alu1(number<0>{}); // finalize sp(0) -> P(0)
                gemm(number<0>{}, /*gemm_idx=*/number<1>{}); // PV: P(0)*V0

-                __builtin_amdgcn_s_barrier();
-                K_lds_load(number<1>{}); // K1 from LDS
+                K_lds_load(number<1>{}); // K1 from LDS -> kv_tile.k_tile
                s_waitcnt_lgkmcnt<0>();

-                V_mem_load(number<1>{}); // start V1 -> LDS buf 1
-
                gemm(number<1>{}, /*gemm_idx=*/number<0>{}); // QK: Q*K1 -> sp(1)
                fmha_mask(number<1>{});
                fmha_alu0(number<1>{});
@@ -997,19 +996,20 @@ struct UnifiedAttentionPipeline
                    s_waitcnt_vmcnt<0>();
                    __builtin_amdgcn_s_barrier();

-                    V_lds_load(number<1>{}); // V from buf 1 -> kv_tile.v_tile
+                    // Prefetch next iteration's K/V (overlaps with all compute below)
+                    // K/V use separate LDS regions so no conflict with current reads
+                    if(i_total_loops + 1 < num_total_loop)
+                        K_mem_load(number<1>{}); // next K -> K buf 1
+                    V_mem_load(number<0>{}); // next V -> V buf 0
+
+                    V_lds_load(number<1>{}); // V from V buf 1 -> kv_tile.v_tile
                    s_waitcnt_lgkmcnt<0>();
                    fmha_alu1(number<1>{}); // finalize sp(1) -> P(1)
                    gemm(number<1>{}, /*gemm_idx=*/number<1>{}); // PV: P(1)*V

-                    __builtin_amdgcn_s_barrier();
-                    K_lds_load(number<0>{}); // K from buf 0 -> kv_tile.k_tile
+                    K_lds_load(number<0>{}); // K from K buf 0 -> kv_tile.k_tile
                    s_waitcnt_lgkmcnt<0>();

-                    if(i_total_loops + 1 < num_total_loop)
-                        K_mem_load(number<1>{}); // next K -> buf 1
-                    V_mem_load(number<0>{}); // next V -> buf 0
-
                    gemm(number<0>{}, /*gemm_idx=*/number<0>{}); // QK -> sp(0)
                    fmha_mask(number<0>{});
                    fmha_alu0(number<0>{});
@@ -1023,19 +1023,19 @@ struct UnifiedAttentionPipeline
                    s_waitcnt_vmcnt<0>();
                    __builtin_amdgcn_s_barrier();

-                    V_lds_load(number<0>{}); // V from buf 0 -> kv_tile.v_tile
+                    // Prefetch next iteration's K/V
+                    if(i_total_loops + 1 < num_total_loop)
+                        K_mem_load(number<0>{}); // next K -> K buf 0
+                    V_mem_load(number<1>{}); // next V -> V buf 1
+
+                    V_lds_load(number<0>{}); // V from V buf 0 -> kv_tile.v_tile
                    s_waitcnt_lgkmcnt<0>();
                    fmha_alu1(number<0>{}); // finalize sp(0) -> P(0)
                    gemm(number<0>{}, /*gemm_idx=*/number<1>{}); // PV: P(0)*V

-                    __builtin_amdgcn_s_barrier();
-                    K_lds_load(number<1>{}); // K from buf 1 -> kv_tile.k_tile
+                    K_lds_load(number<1>{}); // K from K buf 1 -> kv_tile.k_tile
                    s_waitcnt_lgkmcnt<0>();

-                    if(i_total_loops + 1 < num_total_loop)
-                        K_mem_load(number<0>{}); // next K -> buf 0
-                    V_mem_load(number<1>{}); // next V -> buf 1
-
                    gemm(number<1>{}, /*gemm_idx=*/number<0>{}); // QK -> sp(1)
                    fmha_mask(number<1>{});
                    fmha_alu0(number<1>{});