Enable padding blockscale for abquant (#3453)

* Enable padding blockscale for abquant * run clang-format * Reduce unnecessary testing * remove cout
2026-04-20 06:49:15 +00:00 · 2025-12-25 01:12:40 +08:00
parent 1c3151963b
commit 7f68f3c4fa
8 changed files with 128 additions and 138 deletions
--- a/include/ck_tile/host/reference/reference_gemm.hpp
+++ b/include/ck_tile/host/reference/reference_gemm.hpp
@@ -142,99 +142,98 @@ CK_TILE_HOST void reference_gemm_abquant(const HostTensor<ADataType>& a_m_k,
    const std::size_t K = a_m_k.get_length(1);

    auto f_mn = [&](auto m, auto n) {
-        AccDataType v_acc = 0, v_block_acc = 0;
+        AccDataType v_acc = 0;

-        static_assert(std::is_same_v<ADataType, pk_int4_t> || std::is_same_v<ADataType, fp8_t> ||
-                      std::is_same_v<ADataType, bf8_t>);
-        static_assert(std::is_same_v<BDataType, fp8_t> || std::is_same_v<BDataType, bf8_t> ||
-                      std::is_same_v<BDataType, pk_int4_t>);
-        static_assert(std::is_same_v<AccDataType, float>);
-        static_assert(std::is_same_v<CDataType, float> ||
-                      std::is_same_v<CDataType, ck_tile::half_t>);
-        for(std::size_t k = 0; k < K; ++k)
-        {
-            AccDataType v_a;
-            AccDataType v_b;
+        constexpr std::size_t kGroupK = BQuantGroupSize::kK;
+
+        // ---- A loader: dequant A(m,k) into AccDataType ----
+        auto load_a = [&](std::size_t k) -> AccDataType {
            if constexpr(std::is_same_v<ADataType, pk_int4_t>)
            {
                const pk_int4_t pk_val  = a_element_op(a_m_k(m, k));
                const fp32x2_t fp32_val = pk_int4_t_to_fp32x2_t(pk_val);
-                if(k % 2 == 1)
-                    v_a = fp32_val.hi;
-                else
-                    v_a = fp32_val.lo;
+                return (k & 1) ? fp32_val.hi : fp32_val.lo;
            }
            else
            {
-                v_a = ck_tile::type_convert<AccDataType>(a_element_op(a_m_k(m, k)));
+                return ck_tile::type_convert<AccDataType>(a_element_op(a_m_k(m, k)));
            }
+        };

+        // ---- B loader: dequant B(k,n) into AccDataType ----
+        auto load_b = [&](std::size_t k) -> AccDataType {
            if constexpr(std::is_same_v<BDataType, pk_int4_t>)
            {
                const pk_int4_t pk_val  = b_element_op(b_k_n(k, n));
                const fp32x2_t fp32_val = pk_int4_t_to_fp32x2_t(pk_val);
-                if(k % 2 == 1)
-                    v_b = fp32_val.hi;
-                else
-                    v_b = fp32_val.lo;
+                return (k & 1) ? fp32_val.hi : fp32_val.lo;
            }
            else if constexpr(std::is_same_v<BDataType, fp8_t>)
            {
-                v_b = fp8_to_float_raw(b_element_op(b_k_n(k, n)));
+                return fp8_to_float_raw(b_element_op(b_k_n(k, n)));
            }
            else
            {
-                v_b = ck_tile::type_convert<AccDataType>(b_element_op(b_k_n(k, n)));
+                return ck_tile::type_convert<AccDataType>(b_element_op(b_k_n(k, n)));
            }
-            v_block_acc += v_a * v_b;
+        };

-            // Apply group dequant scale
-            if((k + 1) % BQuantGroupSize::kK == 0)
+        // ---- a scale loader for a given K-group index ----
+        auto load_scale_a = [&](ck_tile::index_t k_group) -> float {
+            const ck_tile::index_t outer_dim = m / AQuantGroupSize::kM;
+            const ck_tile::index_t inner_dim = k_group;
+
+            if constexpr(std::is_same_v<AQDataType, float>)
            {
-                float a_scale = 0.f;
-                float b_scale = 0.f;
-                // A scale
-                index_t outer_dim = m / AQuantGroupSize::kM;
-                index_t inner_dim = k / AQuantGroupSize::kK;
-                if constexpr(std::is_same_v<AQDataType, float>)
-                {
-                    a_scale = a_q(outer_dim, inner_dim);
-                }
-                else if constexpr(std::is_same_v<AQDataType, ck_tile::fp8_t>)
-                {
-                    a_scale = fp8_to_float_raw(a_q(outer_dim, inner_dim));
-                }
-                else if constexpr(std::is_same_v<AQDataType, ck_tile::bf8_t>)
-                {
-                    a_scale = bf8_to_float_raw(a_q(outer_dim, inner_dim));
-                }
-                else
-                {
-                    static_assert(false, "Unexpected Q datatype.");
-                }
-                // B scale
-                outer_dim = k / BQuantGroupSize::kK;
-                inner_dim = n / BQuantGroupSize::kN;
-                if constexpr(std::is_same_v<BQDataType, float>)
-                {
-                    b_scale = b_q(outer_dim, inner_dim);
-                }
-                else if constexpr(std::is_same_v<BQDataType, ck_tile::fp8_t>)
-                {
-                    b_scale = fp8_to_float_raw(b_q(outer_dim, inner_dim));
-                }
-                else if constexpr(std::is_same_v<BQDataType, ck_tile::bf8_t>)
-                {
-                    b_scale = bf8_to_float_raw(b_q(outer_dim, inner_dim));
-                }
-                else
-                {
-                    static_assert(false, "Unexpected Q datatype.");
-                }
-                v_block_acc = v_block_acc * a_scale * b_scale;
-                v_acc += v_block_acc;
-                v_block_acc = 0;
+                return a_q(outer_dim, inner_dim);
            }
+            else if constexpr(std::is_same_v<AQDataType, ck_tile::fp8_t>)
+            {
+                return fp8_to_float_raw(a_q(outer_dim, inner_dim));
+            }
+            else // QDataType == bf8_t by static_assert above
+            {
+                return bf8_to_float_raw(a_q(outer_dim, inner_dim));
+            }
+        };
+        // ---- b scale loader for a given K-group index ----
+        auto load_scale_b = [&](ck_tile::index_t k_group) -> float {
+            const ck_tile::index_t outer_dim = k_group;
+            const ck_tile::index_t inner_dim = n / BQuantGroupSize::kN;
+
+            if constexpr(std::is_same_v<BQDataType, float>)
+            {
+                return b_q(outer_dim, inner_dim);
+            }
+            else if constexpr(std::is_same_v<BQDataType, ck_tile::fp8_t>)
+            {
+                return fp8_to_float_raw(b_q(outer_dim, inner_dim));
+            }
+            else // QDataType == bf8_t by static_assert above
+            {
+                return bf8_to_float_raw(b_q(outer_dim, inner_dim));
+            }
+        };
+        // ---- Loop over K by groups (full and tail) ----
+        for(std::size_t k_begin = 0; k_begin < K; k_begin += kGroupK)
+        {
+            const std::size_t k_end = std::min<std::size_t>(k_begin + kGroupK, K);
+
+            AccDataType v_block_acc = 0;
+
+            // unscaled accumulation within this K-group
+            for(std::size_t k = k_begin; k < k_end; ++k)
+            {
+                const AccDataType v_a = load_a(k);
+                const AccDataType v_b = load_b(k);
+                v_block_acc += v_a * v_b;
+            }
+
+            const ck_tile::index_t k_group = static_cast<ck_tile::index_t>(k_begin / kGroupK);
+            const float scale_a            = load_scale_a(k_group);
+            const float scale_b            = load_scale_b(k_group);
+
+            v_acc += v_block_acc * scale_a * scale_b;
        }

        c_m_n(m, n) = ck_tile::type_convert<CDataType>(acc_element_op(v_acc));