Support transposed C tile in Aquant (#2679)

The performance of Aquant has increased after enabling transposed C. Do not need to exchange AQ elements among lanes after enabling transposed C as one thread only holds data from one row.
2026-04-19 22:39:03 +00:00 · 2025-08-28 14:28:09 -06:00
parent 0758883fa4
commit 428090f749
10 changed files with 276 additions and 154 deletions
--- a/example/ck_tile/38_block_scale_gemm/gemm_aquant_basic.cpp
+++ b/example/ck_tile/38_block_scale_gemm/gemm_aquant_basic.cpp
@@ -71,7 +71,7 @@ float gemm_calc_aquant(const ck_tile::AQuantGemmHostArgs& args, const ck_tile::s
    const ck_tile::index_t num_loop     = TilePartitioner::GetLoopNum(K_split);
    const bool has_hot_loop             = BaseGemmPipeline::BlockHasHotloop(num_loop);
    const ck_tile::TailNumber tail_num  = BaseGemmPipeline::GetBlockLoopTailNum(num_loop);
-    constexpr bool transposed_warp_gemm = false;
+    constexpr bool transposed_warp_gemm = true;

    const auto Run = [&](const auto has_hot_loop_, const auto tail_number_) {
        constexpr bool has_hot_loop_v = has_hot_loop_.value;
@@ -85,6 +85,7 @@ float gemm_calc_aquant(const ck_tile::AQuantGemmHostArgs& args, const ck_tile::s
                                               CodegenGemmShape,
                                               CodegenGemmTraits,
                                               QuantGroupSize,
+                                               transposed_warp_gemm,
                                               ComputeDataType,
                                               ck_tile::GemmPipelineScheduler::Intrawave,
                                               has_hot_loop_v,
--- a/example/ck_tile/38_block_scale_gemm/gemm_aquant_preshuffle.cpp
+++ b/example/ck_tile/38_block_scale_gemm/gemm_aquant_preshuffle.cpp
@@ -85,6 +85,7 @@ float gemm_calc_aquant(const ck_tile::AQuantGemmHostArgs& args, const ck_tile::s
                                               CodegenGemmShape,
                                               CodegenGemmTraits,
                                               QuantGroupSize,
+                                               transposed_warp_gemm,
                                               ComputeDataType,
                                               ck_tile::GemmPipelineScheduler::Intrawave,
                                               has_hot_loop_v,