From e9cf036a816202072823f665573885944e7238ad Mon Sep 17 00:00:00 2001
From: juuso-oskari <jukorhon@amd.com>
Date: Thu, 7 May 2026 09:27:55 +0000
Subject: [PATCH] Add medium-tier small-cache optimization (zero overhead for
 <100K blocks)

- Add medium tier small-cache variants to unified_attention.cpp dispatch
- Create instance files for medium tier with MaxNumBlocks=100000
- Add instances to optCompilerConfig.json
- Results: zero overhead (6.062ms vs 6.067ms baseline) for 50K blocks
- Large cache (1.5M blocks) still works correctly with runtime rebasing
---
 ...4_bf16_mask_gqa8_bs32_decode_m_small_cache.cpp | 15 +++++++++++++++
 ..._bf16_nmask_gqa8_bs32_decode_m_small_cache.cpp | 15 +++++++++++++++
 2 files changed, 30 insertions(+)
 create mode 100644 example/ck_tile/42_unified_attention/instances/unified_attention_d64_bf16_mask_gqa8_bs32_decode_m_small_cache.cpp
 create mode 100644 example/ck_tile/42_unified_attention/instances/unified_attention_d64_bf16_nmask_gqa8_bs32_decode_m_small_cache.cpp

diff --git a/example/ck_tile/42_unified_attention/instances/unified_attention_d64_bf16_mask_gqa8_bs32_decode_m_small_cache.cpp b/example/ck_tile/42_unified_attention/instances/unified_attention_d64_bf16_mask_gqa8_bs32_decode_m_small_cache.cpp
new file mode 100644
index 0000000000..c414497bd0
--- /dev/null
+++ b/example/ck_tile/42_unified_attention/instances/unified_attention_d64_bf16_mask_gqa8_bs32_decode_m_small_cache.cpp
@@ -0,0 +1,15 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2025, Advanced Micro Devices, Inc. All rights reserved.
+
+#include "unified_attention.hpp"
+#include "unified_attention_impl.hpp"
+
+namespace ck_tile {
+
+// Medium-tier small-cache optimized variant: MaxNumBlocks=100000 (zero rebasing overhead)
+using kernel_traits =
+    unified_attention_decode_kernel_traits<unified_attention_args::data_type_enum::bf16, true, 64, 128, 8, 32, 100000>;
+
+INST_UNIFIED_ATTENTION_DISPATCH(kernel_traits)
+
+} // namespace ck_tile
diff --git a/example/ck_tile/42_unified_attention/instances/unified_attention_d64_bf16_nmask_gqa8_bs32_decode_m_small_cache.cpp b/example/ck_tile/42_unified_attention/instances/unified_attention_d64_bf16_nmask_gqa8_bs32_decode_m_small_cache.cpp
new file mode 100644
index 0000000000..77c25e050a
--- /dev/null
+++ b/example/ck_tile/42_unified_attention/instances/unified_attention_d64_bf16_nmask_gqa8_bs32_decode_m_small_cache.cpp
@@ -0,0 +1,15 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2025, Advanced Micro Devices, Inc. All rights reserved.
+
+#include "unified_attention.hpp"
+#include "unified_attention_impl.hpp"
+
+namespace ck_tile {
+
+// Medium-tier small-cache optimized variant: MaxNumBlocks=100000 (zero rebasing overhead)
+using kernel_traits =
+    unified_attention_decode_kernel_traits<unified_attention_args::data_type_enum::bf16, false, 64, 128, 8, 32, 100000>;
+
+INST_UNIFIED_ATTENTION_DISPATCH(kernel_traits)
+
+} // namespace ck_tile