diff --git a/example/ck_tile/51_tile_distr_enc_reg_map/example_tile_distr_enc_calc.cpp b/example/ck_tile/51_tile_distr_enc_reg_map/example_tile_distr_enc_calc.cpp
index 9e62f6e939..41b954a6de 100644
--- a/example/ck_tile/51_tile_distr_enc_reg_map/example_tile_distr_enc_calc.cpp
+++ b/example/ck_tile/51_tile_distr_enc_reg_map/example_tile_distr_enc_calc.cpp
@@ -73,17 +73,17 @@ int check_tile_distr_enc()
 // List of intrinsics to test.
 // clang-format off
 using Intrinsics = ck_tile::tuple<
-    amdgcn_mma<F16, F16, F32, 16u, 16u, 16u, DefaultMfmaCtrlFlags,                Target908, MmaOpFamily::DENSE>, // mfma_f32_16x16x16f16
-    amdgcn_mma<F16, F16, F32, 64u, 32u, 4u,  DefaultMfmaCtrlFlags,                Target908, MmaOpFamily::DENSE>, // mfma_f32_32x32x4f16
-    amdgcn_mma<F16, F16, F32, 32u, 64u, 4u,  DefaultMfmaCtrlFlags,                Target908, MmaOpFamily::DENSE>, // mfma_f32_32x32x4f16
-    amdgcn_mma<F16, F16, F32, 64u, 4u,  4u,  DefaultMfmaCtrlFlags,                Target908, MmaOpFamily::DENSE>, // mfma_f32_4x4x4f16
-    amdgcn_mma<F16, F16, F32, 4u,  64u, 4u,  DefaultMfmaCtrlFlags,                Target908, MmaOpFamily::DENSE>, // mfma_f32_4x4x4f16
-    amdgcn_mma<F16, F16, F32, 16u, 16u, 32u, DefaultMfmaCtrlFlags,                Target950, MmaOpFamily::DENSE>, // mfma_f32_16x16x32_f16
-    amdgcn_mma<F16, F16, F32, 16u, 16u, 16u, DefaultWmmaCtrlFlags,                Target11,  MmaOpFamily::DENSE>, // wmma_f32_16x16x16_f16_w32
-    amdgcn_mma<I4,  I4,  I32, 16u, 16u, 16u, DefaultWmmaCtrlFlags,                Target11,  MmaOpFamily::DENSE>, // wmma_i32_16x16x16_iu4_w32
-    amdgcn_mma<F16, F16, F32, 16u, 16u, 16u, DefaultWmmaCtrlFlags,                Target12,  MmaOpFamily::DENSE>, // wmma_f32_16x16x16_f16_w32_gfx12
-    amdgcn_mma<I4,  I4,  I32, 16u, 16u, 16u, DefaultWmmaCtrlFlags,                Target12,  MmaOpFamily::DENSE>, // wmma_i32_16x16x16_iu4_w32_gfx12
-    amdgcn_mma<I4,  I4,  I32, 16u, 16u, 32u, DefaultWmmaCtrlFlags,                Target12,  MmaOpFamily::DENSE>  // wmma_i32_16x16x32_iu4_w32_gfx12
+    amdgcn_mma<F16, F16, F32, 16u, 16u, 16u, Target908, MmaOpFamily::DENSE>, // mfma_f32_16x16x16f16
+    amdgcn_mma<F16, F16, F32, 64u, 32u, 4u,  Target908, MmaOpFamily::DENSE>, // mfma_f32_32x32x4f16
+    amdgcn_mma<F16, F16, F32, 32u, 64u, 4u,  Target908, MmaOpFamily::DENSE>, // mfma_f32_32x32x4f16
+    amdgcn_mma<F16, F16, F32, 64u, 4u,  4u,  Target908, MmaOpFamily::DENSE>, // mfma_f32_4x4x4f16
+    amdgcn_mma<F16, F16, F32, 4u,  64u, 4u,  Target908, MmaOpFamily::DENSE>, // mfma_f32_4x4x4f16
+    amdgcn_mma<F16, F16, F32, 16u, 16u, 32u, Target950, MmaOpFamily::DENSE>, // mfma_f32_16x16x32_f16
+    amdgcn_mma<F16, F16, F32, 16u, 16u, 16u, Target11,  MmaOpFamily::DENSE>, // wmma_f32_16x16x16_f16_w32
+    amdgcn_mma<I4,  I4,  I32, 16u, 16u, 16u, Target11,  MmaOpFamily::DENSE>, // wmma_i32_16x16x16_iu4_w32
+    amdgcn_mma<F16, F16, F32, 16u, 16u, 16u, Target12,  MmaOpFamily::DENSE>, // wmma_f32_16x16x16_f16_w32_gfx12
+    amdgcn_mma<I4,  I4,  I32, 16u, 16u, 16u, Target12,  MmaOpFamily::DENSE>, // wmma_i32_16x16x16_iu4_w32_gfx12
+    amdgcn_mma<I4,  I4,  I32, 16u, 16u, 32u, Target12,  MmaOpFamily::DENSE>  // wmma_i32_16x16x32_iu4_w32_gfx12
 >;
 // clang-format on
 
diff --git a/include/ck_tile/core.hpp b/include/ck_tile/core.hpp
index b070d0c68a..47ba274a15 100644
--- a/include/ck_tile/core.hpp
+++ b/include/ck_tile/core.hpp
@@ -43,7 +43,6 @@
 #include "ck_tile/core/arch/mma/sparse/sparse.hpp"
 #include "ck_tile/core/arch/mma/sparse/sparse_mma_pipeline.hpp"
 #include "ck_tile/core/arch/mma/sparse/sparse_selector.hpp"
-#include "ck_tile/core/arch/mma/sparse/sparse_traits.hpp"
 #include "ck_tile/core/arch/mma/sparse/sparse_transforms.hpp"
 #include "ck_tile/core/arch/mma/sparse/wmma/selector.hpp"
 #include "ck_tile/core/arch/mma/sparse/wmma/sparse_gfx12.hpp"
diff --git a/include/ck_tile/core/arch/mma/amdgcn_mma.hpp b/include/ck_tile/core/arch/mma/amdgcn_mma.hpp
index d4330b8c73..938fc1791d 100644
--- a/include/ck_tile/core/arch/mma/amdgcn_mma.hpp
+++ b/include/ck_tile/core/arch/mma/amdgcn_mma.hpp
@@ -246,25 +246,14 @@ CK_TILE_HOST_DEVICE constexpr const char* to_string(Unsupported) { return "Unsup
 
 #if CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
 
-/**
- * @concept HasExecSignature
- * @brief  Helper concept for exec signature check.
- */
-template <typename MmaOp, typename... ExecArgs>
-concept HasExecSignature = requires {
-    {
-        MmaOp::exec(typename MmaOp::AVecType{},
-                    typename MmaOp::BVecType{},
-                    typename MmaOp::CVecType{},
-                    std::declval<ExecArgs>()...)
-    } -> std::convertible_to<typename MmaOp::CVecType>;
-};
-
 /**
  * @concept MmaOpI
  * @brief  Expresses the meta-data interface required for each MmaOp policy.
  */
 // TODO: Make sure this actually matches amdgcn_mma.
+// NOTE: It is no longer possible to perform a check on the exec() function, since it is now
+// templated over the variadic WarpGemmParams template pack for intrinsic flags. It seems like
+// concepts do not work for templated device functions.
 template <typename MmaOp>
 concept MmaOpI = requires(MmaOp op) {
     // Requires an op context
@@ -287,7 +276,7 @@ concept MmaOpI = requires(MmaOp op) {
     { MmaOp::kCMPerLane } -> std::convertible_to<unsigned int>;
     { MmaOp::kCMNumAccess } -> std::convertible_to<unsigned int>;
     { MmaOp::kCompressionRatio } -> std::convertible_to<unsigned int>;
-} && (HasExecSignature<MmaOp> || HasExecSignature<MmaOp, int> || HasExecSignature<MmaOp, int, int>);
+};
 
 #endif // CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
 
@@ -305,7 +294,6 @@ concept MmaOpI = requires(MmaOp op) {
  *  @tparam FragM M-dimension of mma intrinsic (MmaTile)
  *  @tparam FragN N-dimension of mma intrinsic (MmaTile)
  *  @tparam FragK K-dimension of mma intrinsic (MmaTile)
- *  @tparam CtrlFlags Control flags for mma operation
  *  @tparam CompilerTarget The current compiler target
  *  @tparam OpFamily_ The type of operation (dense, sparse, scale, etc.)
  *  @tparam Enabler SFINAE enabler
@@ -316,7 +304,6 @@ template <typename ADataType,
           uint32_t FragM,
           uint32_t FragN,
           uint32_t FragK,
-          typename CtrlFlags,
           typename CompilerTarget,
           MmaOpFamily OpFamily_,
           typename Enabler = void>
@@ -326,6 +313,7 @@ struct amdgcn_mma : amdgcn_mma_base<fp32_t, fp32_t, fp32_t, 1u, 1u, 1u, 1u, 1, 1
 // clang-format on
 {
     // This is a default pass-through implementation that doesn't do anything practical.
+    template <typename... Params>
     CK_TILE_DEVICE static auto
     exec(AVecType const& regsA, BVecType const& regsB, CVecType const& regsC)
     {
@@ -347,7 +335,6 @@ template <typename ADataType,
           std::uint32_t FragM,
           std::uint32_t FragN,
           std::uint32_t FragK,
-          typename CtrlFlags,
           typename CompilerTarget,
           MmaOpFamily OpFamily_,
           typename Enabler = void>
@@ -357,7 +344,6 @@ CK_TILE_HOST_DEVICE void print(amdgcn_mma<ADataType,
                                           FragM,
                                           FragN,
                                           FragK,
-                                          CtrlFlags,
                                           CompilerTarget,
                                           OpFamily_,
                                           Enabler> const& mmaObj)
@@ -392,10 +378,6 @@ CK_TILE_HOST_DEVICE void print(amdgcn_mma<ADataType,
     printf("               kCNBlocks                : %d\n", mmaObj.kCNBlocks);
     printf("               CBlockDimInVecDim        : %d\n", mmaObj.CBlockDimInVecDim);
     printf("Instruction    name                     : %s\n", ObjType::instruction_name);
-    if constexpr(!std::is_same_v<CtrlFlags, void>)
-    {
-        print_flags(CtrlFlags{});
-    }
     print(CompilerTarget{});
 }
 
diff --git a/include/ck_tile/core/arch/mma/mfma/mfma_gfx9.hpp b/include/ck_tile/core/arch/mma/mfma/mfma_gfx9.hpp
index b3f2a90cd4..ad4a055a06 100644
--- a/include/ck_tile/core/arch/mma/mfma/mfma_gfx9.hpp
+++ b/include/ck_tile/core/arch/mma/mfma/mfma_gfx9.hpp
@@ -17,6 +17,7 @@
 #include "ck_tile/core/numeric/tfloat32.hpp"
 #include "ck_tile/core/numeric/vector_type.hpp"
 #include "ck_tile/core/utility/bit_cast.hpp"
+#include "ck_tile/ops/gemm/warp/warp_gemm_params.hpp"
 
 namespace ck_tile::core::arch::mma {
 
@@ -31,29 +32,26 @@ namespace ck_tile::core::arch::mma {
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp32_t, fp32_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 32u, 64u, 1u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 32u, 64u, 1u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp32_t, fp32_t, fp32_t, 32u, 64u, 1u, 64u, 1, 1, 2, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x1f32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x1f32(bit_cast<fp32_t>(aVec),
-                                                     bit_cast<fp32_t>(bVec),
-                                                     cVec,
-                                                     CtrlFlags::Cbsz,
-                                                     CtrlFlags::Abid,
-                                                     CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x1f32(
+            bit_cast<fp32_t>(aVec), bit_cast<fp32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -61,29 +59,26 @@ struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 32u, 64u, 1u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp32_t, fp32_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 64u, 32u, 1u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 64u, 32u, 1u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp32_t, fp32_t, fp32_t, 64u, 32u, 1u, 64u, 1, 1, 1, 1, 2, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x1f32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x1f32(bit_cast<fp32_t>(aVec),
-                                                     bit_cast<fp32_t>(bVec),
-                                                     cVec,
-                                                     CtrlFlags::Cbsz,
-                                                     CtrlFlags::Abid,
-                                                     CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x1f32(
+            bit_cast<fp32_t>(aVec), bit_cast<fp32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -91,29 +86,26 @@ struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 64u, 32u, 1u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp32_t, fp32_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 16u, 64u, 1u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 16u, 64u, 1u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp32_t, fp32_t, fp32_t, 16u, 64u, 1u, 64u, 1, 1, 4, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x1f32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x1f32(bit_cast<fp32_t>(aVec),
-                                                     bit_cast<fp32_t>(bVec),
-                                                     cVec,
-                                                     CtrlFlags::Cbsz,
-                                                     CtrlFlags::Abid,
-                                                     CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x1f32(
+            bit_cast<fp32_t>(aVec), bit_cast<fp32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -121,29 +113,26 @@ struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 16u, 64u, 1u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp32_t, fp32_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 64u, 16u, 1u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 64u, 16u, 1u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp32_t, fp32_t, fp32_t, 64u, 16u, 1u, 64u, 1, 1, 1, 1, 4, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x1f32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x1f32(bit_cast<fp32_t>(aVec),
-                                                     bit_cast<fp32_t>(bVec),
-                                                     cVec,
-                                                     CtrlFlags::Cbsz,
-                                                     CtrlFlags::Abid,
-                                                     CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x1f32(
+            bit_cast<fp32_t>(aVec), bit_cast<fp32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -151,29 +140,26 @@ struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 64u, 16u, 1u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp32_t, fp32_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize  |AParams  |BPar |CPar |
-struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 4u, 64u, 1u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 4u, 64u, 1u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp32_t, fp32_t, fp32_t, 4u, 64u, 1u, 64u, 1, 1, 16, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_4x4x1f32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_4x4x1f32(bit_cast<fp32_t>(aVec),
-                                                   bit_cast<fp32_t>(bVec),
-                                                   cVec,
-                                                   CtrlFlags::Cbsz,
-                                                   CtrlFlags::Abid,
-                                                   CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_4x4x1f32(
+            bit_cast<fp32_t>(aVec), bit_cast<fp32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -181,29 +167,26 @@ struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 4u, 64u, 1u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp32_t, fp32_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize  |AParams |BPar  |CPar |
-struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 64u, 4u, 1u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 64u, 4u, 1u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp32_t, fp32_t, fp32_t, 64u, 4u, 1u, 64u, 1, 1, 1, 1, 16, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_4x4x1f32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_4x4x1f32(bit_cast<fp32_t>(aVec),
-                                                   bit_cast<fp32_t>(bVec),
-                                                   cVec,
-                                                   CtrlFlags::Cbsz,
-                                                   CtrlFlags::Abid,
-                                                   CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_4x4x1f32(
+            bit_cast<fp32_t>(aVec), bit_cast<fp32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -211,29 +194,26 @@ struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 64u, 4u, 1u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp32_t, fp32_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 32u, 32u, 2u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 32u, 32u, 2u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp32_t, fp32_t, fp32_t, 32u, 32u, 2u, 64u, 1, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x2f32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x2f32(bit_cast<fp32_t>(aVec),
-                                                     bit_cast<fp32_t>(bVec),
-                                                     cVec,
-                                                     CtrlFlags::Cbsz,
-                                                     CtrlFlags::Abid,
-                                                     CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x2f32(
+            bit_cast<fp32_t>(aVec), bit_cast<fp32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -241,29 +221,26 @@ struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 32u, 32u, 2u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp32_t, fp32_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 16u, 16u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 16u, 16u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp32_t, fp32_t, fp32_t, 16u, 16u, 4u, 64u, 1, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x4f32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x4f32(bit_cast<fp32_t>(aVec),
-                                                     bit_cast<fp32_t>(bVec),
-                                                     cVec,
-                                                     CtrlFlags::Cbsz,
-                                                     CtrlFlags::Abid,
-                                                     CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x4f32(
+            bit_cast<fp32_t>(aVec), bit_cast<fp32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -271,25 +248,25 @@ struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 16u, 16u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 64u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 64u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 32u, 64u, 4u, 64u, 4, 1, 2, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x4f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x4f16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x4f16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -297,25 +274,25 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 64u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 64u, 32u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 64u, 32u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 64u, 32u, 4u, 64u, 4, 1, 1, 1, 2, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x4f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x4f16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x4f16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -323,25 +300,25 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 64u, 32u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 64u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 64u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 16u, 64u, 4u, 64u, 4, 1, 4, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x4f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x4f16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x4f16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -349,25 +326,25 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 64u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 64u, 16u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 64u, 16u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 64u, 16u, 4u, 64u, 4, 1, 1, 1, 4, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x4f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x4f16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x4f16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -375,25 +352,25 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 64u, 16u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize  |AParams  |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 4u, 64u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 4u, 64u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 4u, 64u, 4u, 64u, 4, 1, 16, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_4x4x4f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_4x4x4f16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_4x4x4f16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -401,25 +378,25 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 4u, 64u, 4u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize  |AParams |BPar  |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 64u, 4u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 64u, 4u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 64u, 4u, 4u, 64u, 4, 1, 1, 1, 16, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_4x4x4f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_4x4x4f16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_4x4x4f16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -427,25 +404,25 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 64u, 4u, 4u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 8u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 8u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 32u, 32u, 8u, 64u, 4, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x8f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x8f16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x8f16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -453,25 +430,25 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 8u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, 64u, 4, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x16f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x16f16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x16f16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -479,29 +456,26 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 64u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 64u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 32u, 64u, 4u, 64u, 4, 1, 2, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_32x32x4i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_32x32x4i8(bit_cast<int32_t>(aVec),
-                                                    bit_cast<int32_t>(bVec),
-                                                    cVec,
-                                                    CtrlFlags::Cbsz,
-                                                    CtrlFlags::Abid,
-                                                    CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_32x32x4i8(
+            bit_cast<int32_t>(aVec), bit_cast<int32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -509,29 +483,26 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 64u, 4u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 64u, 32u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 64u, 32u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 64u, 32u, 4u, 64u, 4, 1, 1, 1, 2, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_32x32x4i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_32x32x4i8(bit_cast<int32_t>(aVec),
-                                                    bit_cast<int32_t>(bVec),
-                                                    cVec,
-                                                    CtrlFlags::Cbsz,
-                                                    CtrlFlags::Abid,
-                                                    CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_32x32x4i8(
+            bit_cast<int32_t>(aVec), bit_cast<int32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -539,29 +510,26 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 64u, 32u, 4u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 64u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 64u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 16u, 64u, 4u, 64u, 4, 1, 4, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_16x16x4i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_16x16x4i8(bit_cast<int32_t>(aVec),
-                                                    bit_cast<int32_t>(bVec),
-                                                    cVec,
-                                                    CtrlFlags::Cbsz,
-                                                    CtrlFlags::Abid,
-                                                    CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_16x16x4i8(
+            bit_cast<int32_t>(aVec), bit_cast<int32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -569,29 +537,26 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 64u, 4u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 64u, 16u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 64u, 16u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 64u, 16u, 4u, 64u, 4, 1, 1, 1, 4, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_16x16x4i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_16x16x4i8(bit_cast<int32_t>(aVec),
-                                                    bit_cast<int32_t>(bVec),
-                                                    cVec,
-                                                    CtrlFlags::Cbsz,
-                                                    CtrlFlags::Abid,
-                                                    CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_16x16x4i8(
+            bit_cast<int32_t>(aVec), bit_cast<int32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -599,29 +564,26 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 64u, 16u, 4u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize  |AParams  |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 4u, 64u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 4u, 64u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 4u, 64u, 4u, 64u, 4, 1, 16, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_4x4x4i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_4x4x4i8(bit_cast<int32_t>(aVec),
-                                                  bit_cast<int32_t>(bVec),
-                                                  cVec,
-                                                  CtrlFlags::Cbsz,
-                                                  CtrlFlags::Abid,
-                                                  CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_4x4x4i8(
+            bit_cast<int32_t>(aVec), bit_cast<int32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -629,29 +591,26 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 4u, 64u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX9
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize  |AParams |BPar  |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 64u, 4u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 64u, 4u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx9_t<CompilerTarget>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 64u, 4u, 4u, 64u, 4, 1, 1, 1, 16, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_4x4x4i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_4x4x4i8(bit_cast<int32_t>(aVec),
-                                                  bit_cast<int32_t>(bVec),
-                                                  cVec,
-                                                  CtrlFlags::Cbsz,
-                                                  CtrlFlags::Abid,
-                                                  CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_4x4x4i8(
+            bit_cast<int32_t>(aVec), bit_cast<int32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -659,29 +618,26 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 64u, 4u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX908 and
  * GFX90a architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 8u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 8u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 32u, 32u, 8u, 64u, 4, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_32x32x8i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_32x32x8i8(bit_cast<int32_t>(aVec),
-                                                    bit_cast<int32_t>(bVec),
-                                                    cVec,
-                                                    CtrlFlags::Cbsz,
-                                                    CtrlFlags::Abid,
-                                                    CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_32x32x8i8(
+            bit_cast<int32_t>(aVec), bit_cast<int32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -689,29 +645,26 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 8u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX908 and
  * GFX90a architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 16u, 16u, 16u, 64u, 4, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_16x16x16i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_16x16x16i8(bit_cast<int32_t>(aVec),
-                                                     bit_cast<int32_t>(bVec),
-                                                     cVec,
-                                                     CtrlFlags::Cbsz,
-                                                     CtrlFlags::Abid,
-                                                     CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_16x16x16i8(
+            bit_cast<int32_t>(aVec), bit_cast<int32_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -719,25 +672,25 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 16u, CtrlFlags, CompilerTar
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX908 and GFX90a
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 64u, 2u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 64u, 2u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 32u, 64u, 2u, 64u, 2, 1, 2, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x2bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x2bf16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x2bf16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -745,25 +698,25 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 64u, 2u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX908 and GFX90a
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 32u, 2u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 32u, 2u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 64u, 32u, 2u, 64u, 2, 1, 1, 1, 2, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x2bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x2bf16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x2bf16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -771,25 +724,25 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 32u, 2u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX908 and GFX90a
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 64u, 2u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 64u, 2u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 16u, 64u, 2u, 64u, 2, 1, 4, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x2bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x2bf16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x2bf16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -797,25 +750,25 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 64u, 2u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX908 and GFX90a
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 16u, 2u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 16u, 2u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 64u, 16u, 2u, 64u, 2, 1, 1, 1, 4, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x2bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x2bf16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x2bf16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -823,25 +776,25 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 16u, 2u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX908 and GFX90a
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize  |AParams  |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 4u, 64u, 2u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 4u, 64u, 2u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 4u, 64u, 2u, 64u, 2, 1, 16, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_4x4x2bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_4x4x2bf16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_4x4x2bf16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -849,25 +802,25 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 4u, 64u, 2u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX908 and GFX90a
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize  |AParams |BPar  |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 4u, 2u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 4u, 2u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 64u, 4u, 2u, 64u, 2, 1, 1, 1, 16, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_4x4x2bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_4x4x2bf16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_4x4x2bf16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -875,25 +828,25 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 4u, 2u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX908 and GFX90a
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 32u, 32u, 4u, 64u, 2, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x4bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x4bf16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x4bf16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -901,25 +854,25 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX908 and GFX90a
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx9I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 8u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 8u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX908, amdgcn_target_id::GFX90A>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 16u, 16u, 8u, 64u, 2, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x8bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x8bf16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x8bf16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -927,25 +880,26 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 8u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX90A, GFX942,
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna2I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 64u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 64u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 32u, 64u, 4u, 64u, 4, 1, 2, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x4bf16_1k";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x4bf16_1k(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_32x32x4bf16_1k(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -953,25 +907,26 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 64u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX90A, GFX942,
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna2I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 32u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 32u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 64u, 32u, 4u, 64u, 4, 1, 1, 1, 2, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x4bf16_1k";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x4bf16_1k(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_32x32x4bf16_1k(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -979,25 +934,26 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 32u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX90A, GFX942,
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna2I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 64u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 64u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 16u, 64u, 4u, 64u, 4, 1, 4, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x4bf16_1k";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x4bf16_1k(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_16x16x4bf16_1k(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1005,25 +961,26 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 64u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX90A, GFX942,
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna2I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 16u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 16u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 64u, 16u, 4u, 64u, 4, 1, 1, 1, 4, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x4bf16_1k";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x4bf16_1k(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_16x16x4bf16_1k(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1031,25 +988,26 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 16u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX90A, GFX942,
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna2I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize  |AParams  |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 4u, 64u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 4u, 64u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 4u, 64u, 4u, 64u, 4, 1, 16, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_4x4x4bf16_1k";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_4x4x4bf16_1k(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_4x4x4bf16_1k(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1057,25 +1015,26 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 4u, 64u, 4u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX90A, GFX942,
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna2I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize  |AParams |BPar  |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 4u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 4u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 64u, 4u, 4u, 64u, 4, 1, 1, 1, 16, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_4x4x4bf16_1k";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_4x4x4bf16_1k(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_4x4x4bf16_1k(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1083,25 +1042,26 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 64u, 4u, 4u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX90A, GFX942,
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna2I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar  |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 8u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 8u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 32u, 32u, 8u, 64u, 4, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x8bf16_1k";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x8bf16_1k(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_32x32x8bf16_1k(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1109,25 +1069,26 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 8u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX90A, GFX942,
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna2I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, 64u, 4, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x16bf16_1k";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x16bf16_1k(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_16x16x16bf16_1k(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1135,31 +1096,32 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp64_t, fp64_t, fp64_t MMA operation on GFX90A, GFX942,
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna2I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize   |AParams |BPar |CPar |
-struct amdgcn_mma<fp64_t, fp64_t, fp64_t, 16u, 16u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp64_t, fp64_t, fp64_t, 16u, 16u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp64_t, fp64_t, fp64_t, 16u, 16u, 4u, 64u, 1, 1, 1, 1, 1, 4, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f64_16x16x4f64";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
         // Note: BLGP flag has another meaning for f64 builtins: BLGP bits [0:2] cause negation of
         // the A, B, and C input matrices respectively (ref. ISA docs for MI300 Instinct)
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_mfma_f64_16x16x4f64(bit_cast<fp64_t>(aVec),
                                                      bit_cast<fp64_t>(bVec),
                                                      cVec,
-                                                     CtrlFlags::Cbsz, // CBSZ ignored for f64
-                                                     CtrlFlags::Abid, // ABID ignored for f64
-                                                     CtrlFlags::Blgp)};
+                                                     P::cbsz, // CBSZ ignored for f64
+                                                     P::abid, // ABID ignored for f64
+                                                     P::blgp)};
     }
 };
 
@@ -1167,30 +1129,31 @@ struct amdgcn_mma<fp64_t, fp64_t, fp64_t, 16u, 16u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp64_t, fp64_t, fp64_t MMA operation on GFX90A, GFX942,
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna2I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               |A B C DataTypes       |MNK         |
-struct amdgcn_mma<fp64_t, fp64_t, fp64_t, 4u, 16u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp64_t, fp64_t, fp64_t, 4u, 16u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 //                                                   |WS  |AParams |BPar |CPar |
 : amdgcn_mma_base<fp64_t, fp64_t, fp64_t, 4u, 16u, 4u, 64u, 1, 1, 4, 1, 1, 1, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f64_4x4x4f64";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_mfma_f64_4x4x4f64(bit_cast<fp64_t>(aVec),
                                                    bit_cast<fp64_t>(bVec),
                                                    bit_cast<fp64_t>(cVec),
-                                                   CtrlFlags::Cbsz, // CBSZ ignored for f64
-                                                   CtrlFlags::Abid, // ABID ignored for f64
-                                                   CtrlFlags::Blgp)};
+                                                   P::cbsz, // CBSZ ignored for f64
+                                                   P::abid, // ABID ignored for f64
+                                                   P::blgp)};
     }
 };
 
@@ -1198,30 +1161,31 @@ struct amdgcn_mma<fp64_t, fp64_t, fp64_t, 4u, 16u, 4u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp64_t, fp64_t, fp64_t MMA operation on GFX90A, GFX942,
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna2I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               |A B C DataTypes       |MNK         |
-struct amdgcn_mma<fp64_t, fp64_t, fp64_t, 16u, 4u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp64_t, fp64_t, fp64_t, 16u, 4u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX90A, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 //                                                   |WS  |AParams |BPar |CPar |
 : amdgcn_mma_base<fp64_t, fp64_t, fp64_t, 16u, 4u, 4u, 64u, 1, 1, 1, 1, 4, 1, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f64_4x4x4f64";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_mfma_f64_4x4x4f64(bit_cast<fp64_t>(aVec),
                                                    bit_cast<fp64_t>(bVec),
                                                    bit_cast<fp64_t>(cVec),
-                                                   CtrlFlags::Cbsz, // CBSZ ignored for f64
-                                                   CtrlFlags::Abid, // ABID ignored for f64
-                                                   CtrlFlags::Blgp)};
+                                                   P::cbsz, // CBSZ ignored for f64
+                                                   P::abid, // ABID ignored for f64
+                                                   P::blgp)};
     }
 };
 
@@ -1229,29 +1193,26 @@ struct amdgcn_mma<fp64_t, fp64_t, fp64_t, 16u, 4u, 4u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX942, GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 16u, 16u, 32u, 64u, 8, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_16x16x32_i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_16x16x32_i8(bit_cast<int64_t>(aVec),
-                                                      bit_cast<int64_t>(bVec),
-                                                      cVec,
-                                                      CtrlFlags::Cbsz,
-                                                      CtrlFlags::Abid,
-                                                      CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_16x16x32_i8(
+            bit_cast<int64_t>(aVec), bit_cast<int64_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1259,29 +1220,26 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 32u, CtrlFlags, CompilerTar
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX942, GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize    |AParams |BPar |CPar  |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 32u, 32u, 16u, 64u, 8, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_32x32x16_i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_32x32x16_i8(bit_cast<int64_t>(aVec),
-                                                      bit_cast<int64_t>(bVec),
-                                                      cVec,
-                                                      CtrlFlags::Cbsz,
-                                                      CtrlFlags::Abid,
-                                                      CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_32x32x16_i8(
+            bit_cast<int64_t>(aVec), bit_cast<int64_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1289,26 +1247,27 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 16u, CtrlFlags, CompilerTar
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for tf32_t, tf32_t, float MMA operation on GFX942
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               |A B C DataTypes       |MNK          |
-struct amdgcn_mma<tf32_t, tf32_t, fp32_t, 16u, 16u, 8u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942>>
+struct amdgcn_mma<tf32_t, tf32_t, fp32_t, 16u, 16u, 8u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942>>
 //                                                    |WS  |AParams |BPar |CPar |
 : amdgcn_mma_base<tf32_t, tf32_t, fp32_t, 16u, 16u, 8u, 64u, 2, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x8_xf32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x8_xf32(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_16x16x8_xf32(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1316,26 +1275,27 @@ struct amdgcn_mma<tf32_t, tf32_t, fp32_t, 16u, 16u, 8u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for tf32_t, tf32_t, float MMA operation on GFX942
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               |A B C DataTypes       |MNK          |
-struct amdgcn_mma<tf32_t, tf32_t, fp32_t, 32u, 32u, 4u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942>>
+struct amdgcn_mma<tf32_t, tf32_t, fp32_t, 32u, 32u, 4u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942>>
 //                                                    |WS  |AParams |BPar |CPar  |
 : amdgcn_mma_base<tf32_t, tf32_t, fp32_t, 32u, 32u, 4u, 64u, 2, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x4_xf32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x4_xf32(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_32x32x4_xf32(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1343,29 +1303,26 @@ struct amdgcn_mma<tf32_t, tf32_t, fp32_t, 32u, 32u, 4u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, bf8_t, fp32_t MMA operation on GFX942, GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, bf8_t, fp32_t, 16u, 16u, 32u, 64u, 8, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x32_bf8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x32_bf8_bf8(bit_cast<int64_t>(aVec),
-                                                           bit_cast<int64_t>(bVec),
-                                                           cVec,
-                                                           CtrlFlags::Cbsz,
-                                                           CtrlFlags::Abid,
-                                                           CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x32_bf8_bf8(
+            bit_cast<int64_t>(aVec), bit_cast<int64_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1373,29 +1330,26 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, fp8_t, fp32_t MMA operation on GFX942, GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, fp8_t, fp32_t, 16u, 16u, 32u, 64u, 8, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x32_bf8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x32_bf8_fp8(bit_cast<int64_t>(aVec),
-                                                           bit_cast<int64_t>(bVec),
-                                                           cVec,
-                                                           CtrlFlags::Cbsz,
-                                                           CtrlFlags::Abid,
-                                                           CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x32_bf8_fp8(
+            bit_cast<int64_t>(aVec), bit_cast<int64_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1403,29 +1357,26 @@ struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, bf8_t, fp32_t MMA operation on GFX942, GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, bf8_t, fp32_t, 16u, 16u, 32u, 64u, 8, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x32_fp8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x32_fp8_bf8(bit_cast<int64_t>(aVec),
-                                                           bit_cast<int64_t>(bVec),
-                                                           cVec,
-                                                           CtrlFlags::Cbsz,
-                                                           CtrlFlags::Abid,
-                                                           CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x32_fp8_bf8(
+            bit_cast<int64_t>(aVec), bit_cast<int64_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1433,29 +1384,26 @@ struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, fp8_t, fp32_t MMA operation on GFX942, GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, fp8_t, fp32_t, 16u, 16u, 32u, 64u, 8, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x32_fp8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x32_fp8_fp8(bit_cast<int64_t>(aVec),
-                                                           bit_cast<int64_t>(bVec),
-                                                           cVec,
-                                                           CtrlFlags::Cbsz,
-                                                           CtrlFlags::Abid,
-                                                           CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_16x16x32_fp8_fp8(
+            bit_cast<int64_t>(aVec), bit_cast<int64_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1463,29 +1411,26 @@ struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, bf8_t, fp32_t MMA operation on GFX942, GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar  |
-struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, bf8_t, fp32_t, 32u, 32u, 16u, 64u, 8, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x16_bf8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x16_bf8_bf8(bit_cast<int64_t>(aVec),
-                                                           bit_cast<int64_t>(bVec),
-                                                           cVec,
-                                                           CtrlFlags::Cbsz,
-                                                           CtrlFlags::Abid,
-                                                           CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x16_bf8_bf8(
+            bit_cast<int64_t>(aVec), bit_cast<int64_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1493,29 +1438,26 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, fp8_t, fp32_t MMA operation on GFX942, GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar  |
-struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 32u, 32u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, fp8_t, fp32_t, 32u, 32u, 16u, 64u, 8, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x16_bf8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x16_bf8_fp8(bit_cast<int64_t>(aVec),
-                                                           bit_cast<int64_t>(bVec),
-                                                           cVec,
-                                                           CtrlFlags::Cbsz,
-                                                           CtrlFlags::Abid,
-                                                           CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x16_bf8_fp8(
+            bit_cast<int64_t>(aVec), bit_cast<int64_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1523,29 +1465,26 @@ struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, bf8_t, fp32_t MMA operation on GFX942, GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar  |
-struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 32u, 32u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, bf8_t, fp32_t, 32u, 32u, 16u, 64u, 8, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x16_fp8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x16_fp8_bf8(bit_cast<int64_t>(aVec),
-                                                           bit_cast<int64_t>(bVec),
-                                                           cVec,
-                                                           CtrlFlags::Cbsz,
-                                                           CtrlFlags::Abid,
-                                                           CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x16_fp8_bf8(
+            bit_cast<int64_t>(aVec), bit_cast<int64_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1553,29 +1492,26 @@ struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, fp8_t, fp32_t MMA operation on GFX942, GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar  |
-struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, fp8_t, fp32_t, 32u, 32u, 16u, 64u, 8, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x16_fp8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x16_fp8_fp8(bit_cast<int64_t>(aVec),
-                                                           bit_cast<int64_t>(bVec),
-                                                           cVec,
-                                                           CtrlFlags::Cbsz,
-                                                           CtrlFlags::Abid,
-                                                           CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_f32_32x32x16_fp8_fp8(
+            bit_cast<int64_t>(aVec), bit_cast<int64_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1583,25 +1519,26 @@ struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, 64u, 8, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x32_f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x32_f16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_16x16x32_f16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1609,25 +1546,26 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, 64u, 8, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_16x16x32_bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_16x16x32_bf16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_16x16x32_bf16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1635,25 +1573,26 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar  |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 32u, 32u, 16u, 64u, 8, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x16_f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x16_f16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_32x32x16_f16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1661,25 +1600,26 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar  |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 32u, 32u, 16u, 64u, 8, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_f32_32x32x16_bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_f32_32x32x16_bf16(
-            aVec, bVec, cVec, CtrlFlags::Cbsz, CtrlFlags::Abid, CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_mfma_f32_32x32x16_bf16(aVec, bVec, cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1687,29 +1627,26 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 64u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 16u, 16u, 64u, 64u, 16, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_16x16x64_i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_16x16x64_i8(bit_cast<int32x4_t>(aVec),
-                                                      bit_cast<int32x4_t>(bVec),
-                                                      cVec,
-                                                      CtrlFlags::Cbsz,
-                                                      CtrlFlags::Abid,
-                                                      CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_16x16x64_i8(
+            bit_cast<int32x4_t>(aVec), bit_cast<int32x4_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
@@ -1717,29 +1654,26 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 64u, CtrlFlags, CompilerTar
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize    |AParams  |BPar |CPar  |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 32u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 32u, 32u, 32u, 64u, 16, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_mfma_i32_32x32x32_i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
-        return {__builtin_amdgcn_mfma_i32_32x32x32_i8(bit_cast<int32x4_t>(aVec),
-                                                      bit_cast<int32x4_t>(bVec),
-                                                      cVec,
-                                                      CtrlFlags::Cbsz,
-                                                      CtrlFlags::Abid,
-                                                      CtrlFlags::Blgp)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_mfma_i32_32x32x32_i8(
+            bit_cast<int32x4_t>(aVec), bit_cast<int32x4_t>(bVec), cVec, P::cbsz, P::abid, P::blgp)};
     }
 };
 
diff --git a/include/ck_tile/core/arch/mma/mfma/mfma_selector.hpp b/include/ck_tile/core/arch/mma/mfma/mfma_selector.hpp
index 28af0c4568..233ee77526 100644
--- a/include/ck_tile/core/arch/mma/mfma/mfma_selector.hpp
+++ b/include/ck_tile/core/arch/mma/mfma/mfma_selector.hpp
@@ -53,7 +53,6 @@ struct MmaDefaultSelector<ADataType,
                                                    WaveTileM,
                                                    WaveTileN,
                                                    WaveTileK,
-                                                   DefaultMfmaCtrlFlags,
                                                    CompilerTarget,
                                                    MmaOpFamily::DENSE>::SelectedOp;
 };
diff --git a/include/ck_tile/core/arch/mma/mfma/mfma_traits.hpp b/include/ck_tile/core/arch/mma/mfma/mfma_traits.hpp
index b4f23fc9bc..29340fece7 100644
--- a/include/ck_tile/core/arch/mma/mfma/mfma_traits.hpp
+++ b/include/ck_tile/core/arch/mma/mfma/mfma_traits.hpp
@@ -3,16 +3,8 @@
 
 #pragma once
 
-#include "ck_tile/core/arch/arch.hpp"
 #include "ck_tile/core/config.hpp"
-#include "ck_tile/core/numeric/integer.hpp"
-
-#include <cinttypes>
-#include <stdio.h>
 #include <type_traits>
-#if CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
-#include <concepts>
-#endif // CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
 
 namespace ck_tile::core::arch::mma {
 
@@ -56,42 +48,4 @@ struct is_mma_op_mfma<MmaOp, std::enable_if_t<std::is_same_v<typename MmaOp::OpT
 template <typename MmaOp>
 static constexpr bool is_mma_op_mfma_v = is_mma_op_mfma<MmaOp>::value;
 
-/**
- * @struct DefaultMfmaCtrlFlags
- * @brief Default MFMA flags, no broadcasting or rotation of inputs
- * @note For f64 MFMA instructions, CBSZ and ABID are ignored and BLGP is repurposed for matrix
- * negation. BLGP bits [0:2] negate the A, B, and C input matrices respectively (ref. ISA docs for
- * MI300 Instinct).
- */
-struct DefaultMfmaCtrlFlags
-{
-    static constexpr int32_t Cbsz = 0; // CBSZ flag, default 0
-    static constexpr int32_t Abid = 0; // ABID flag, default 0
-    static constexpr int32_t Blgp = 0; // BLGP flag, default 0
-};
-
-CK_TILE_HOST_DEVICE void print_flags(DefaultMfmaCtrlFlags const& ctrlFlags)
-{
-    printf("CtrlFlags      Cbsz / Abid / Blgp       : %" PRId32 "  / %" PRId32 " / %" PRId32 "\n",
-           ctrlFlags.Cbsz,
-           ctrlFlags.Abid,
-           ctrlFlags.Blgp);
-}
-
-#if CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
-
-/**
- * @concept CtrlFlagsGfx9I
- * @brief  Expresses the interface of required members for each CtrlFlags type on Gfx9
- */
-template <typename CtrlFlags>
-concept CtrlFlagsGfx9I = requires(CtrlFlags ctrlFlags) {
-    // Flag members for Gfx9 MFMA instructions
-    { CtrlFlags::Cbsz } -> std::convertible_to<int32_t>;
-    { CtrlFlags::Abid } -> std::convertible_to<int32_t>;
-    { CtrlFlags::Blgp } -> std::convertible_to<int32_t>;
-};
-
-#endif // CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
-
 } // namespace ck_tile::core::arch::mma
diff --git a/include/ck_tile/core/arch/mma/mma_pipeline.hpp b/include/ck_tile/core/arch/mma/mma_pipeline.hpp
index 3198f2c41f..b687c1adc9 100644
--- a/include/ck_tile/core/arch/mma/mma_pipeline.hpp
+++ b/include/ck_tile/core/arch/mma/mma_pipeline.hpp
@@ -16,88 +16,11 @@
 #endif
 namespace ck_tile::core::arch::mma {
 
-/*! @enum MmaPipelineOptionFlag
- * @brief Individual option flags for configuring MmaPipeline behavior.
- */
-enum struct MmaPipelineOptionFlag : unsigned
-{
-    NONE       = 0x0, ///< No flags set
-    ABSwap     = 0x1, ///< Swap A and B inputs to transpose the C output
-    COMPRESS_A = 0x2, ///< Enable compressed (sparse) A matrix input
-};
-
-/**
- * @struct MmaPipelineOptionFlags
- * @brief  Type-safe bitmask wrapper for combining @ref MmaPipelineOptionFlag values.
- * @par    Provides bitwise OR, AND, NOT, and equality operators for composing
- *         and querying pipeline option flags.
- */
-struct MmaPipelineOptionFlags
-{
-    using Type = std::underlying_type_t<MmaPipelineOptionFlag>;
-
-    explicit constexpr MmaPipelineOptionFlags() : mFlags(0) {}
-    explicit constexpr MmaPipelineOptionFlags(Type value) : mFlags(value) {}
-    constexpr MmaPipelineOptionFlags(MmaPipelineOptionFlag singleFlag) : mFlags(toType(singleFlag))
-    {
-    }
-    constexpr MmaPipelineOptionFlags(const MmaPipelineOptionFlags& original)
-        : mFlags(original.mFlags)
-    {
-    }
-
-    constexpr MmaPipelineOptionFlags& operator|=(MmaPipelineOptionFlag addValue)
-    {
-        mFlags |= toType(addValue);
-        return *this;
-    }
-    constexpr MmaPipelineOptionFlags operator|(MmaPipelineOptionFlag addValue) const
-    {
-        MmaPipelineOptionFlags result(*this);
-        result |= addValue;
-        return result;
-    }
-    constexpr MmaPipelineOptionFlags& operator&=(MmaPipelineOptionFlag maskValue)
-    {
-        mFlags &= toType(maskValue);
-        return *this;
-    }
-    constexpr MmaPipelineOptionFlags operator&(MmaPipelineOptionFlag maskValue) const
-    {
-        MmaPipelineOptionFlags result(*this);
-        result &= maskValue;
-        return result;
-    }
-    constexpr MmaPipelineOptionFlags operator~() const
-    {
-        MmaPipelineOptionFlags result(*this);
-        result.mFlags = ~result.mFlags;
-        return result;
-    }
-    constexpr bool testFlag(MmaPipelineOptionFlag flag) const
-    {
-        return (flag == MmaPipelineOptionFlag::NONE) ? mFlags == toType(flag) : *this & flag;
-    }
-    constexpr operator bool() const { return mFlags != toType(MmaPipelineOptionFlag::NONE); }
-    constexpr bool operator==(Type rhs) const { return mFlags == rhs; }
-
-    private:
-    Type mFlags;
-    static constexpr Type toType(MmaPipelineOptionFlag f) { return static_cast<Type>(f); }
-};
-
-constexpr bool operator==(MmaPipelineOptionFlags::Type lhs, const MmaPipelineOptionFlags& rhs)
-{
-    return rhs == lhs;
-}
-
 /**
  * @class  MmaPipelineBase
  * @brief  CRTP base class that implements the common Mma pipeline logic shared by
  *         all concrete pipeline drivers (e.g., dense wave-wise, sparse, etc.).
  *
- * @tparam Flags_  Compile-time bitmask of @ref MmaPipelineOptionFlag controlling
- *                 pipeline behavior (e.g., C transposition, A compression).
  * @tparam Derived The concrete CRTP-derived pipeline class. Must expose:
  *                 - Type aliases: @c AWarpTensor, @c BWarpTensor, @c CWarpTensor, @c MmaOp
  *                 - Transform aliases: @c ATransform, @c BTransform, @c CTransform, @c DTransform
@@ -107,14 +30,11 @@ constexpr bool operator==(MmaPipelineOptionFlags::Type lhs, const MmaPipelineOpt
  *      1. Apply pre-transforms to input buffers (A, B, C).
  *      2. Delegate to @c Derived::execImpl for the actual mma loop.
  *      3. Apply post-transform to output buffer (D).
- *      When @c ABSwap is set, the A and B inputs are swapped before step 1.
+ *      When CTranspose is used, the A and B inputs are swapped before step 1.
  */
-// TODO: c++20: use MmaPipelineOptionFlags directly
-template <MmaPipelineOptionFlags::Type Flags_, typename Derived>
+template <typename Derived>
 struct MmaPipelineBase
 {
-    static constexpr auto Flags = MmaPipelineOptionFlags(Flags_);
-
     /**
      * @brief Entry point: execute the full Mma pipeline (transforms + mma loop + output).
      * @tparam ATensor Type of the A WaveTile tensor (static_distributed_tensor).
@@ -125,17 +45,17 @@ struct MmaPipelineBase
      * @param  accum Input/output accumulator WaveTile C.
      * @return The output WaveTile D after accumulation and post-transform.
      */
-    template <typename ATensor, typename BTensor, typename CTensor>
+    template <typename... Params, typename ATensor, typename BTensor, typename CTensor>
     CK_TILE_DEVICE static decltype(auto) exec(ATensor& a, BTensor& b, CTensor& accum)
     {
         if constexpr(MmaOpTraits<typename Derived::MmaOp>::IsSupported)
         {
-            if constexpr(Flags & MmaPipelineOptionFlag::ABSwap)
+            if constexpr(Derived::CTranspose)
             {
                 decltype(auto) a_transformed = Derived::ATransform::exec(b);
                 decltype(auto) b_transformed = Derived::BTransform::exec(a);
                 decltype(auto) c_transformed = Derived::CTransform::exec(accum);
-                Derived::execImpl(a_transformed, b_transformed, c_transformed);
+                Derived::template execImpl<Params...>(a_transformed, b_transformed, c_transformed);
                 return Derived::DTransform::exec(c_transformed);
             }
             else
@@ -143,7 +63,7 @@ struct MmaPipelineBase
                 decltype(auto) a_transformed = Derived::ATransform::exec(a);
                 decltype(auto) b_transformed = Derived::BTransform::exec(b);
                 decltype(auto) c_transformed = Derived::CTransform::exec(accum);
-                Derived::execImpl(a_transformed, b_transformed, c_transformed);
+                Derived::template execImpl<Params...>(a_transformed, b_transformed, c_transformed);
                 return Derived::DTransform::exec(c_transformed);
             }
         }
@@ -153,7 +73,7 @@ struct MmaPipelineBase
             // Code should not reach here, but HOST/DEVICE compile passes are
             // weirdly intertwined and instead of having constexpr in the calling
             // site (tests) we do this. See also changes by this commit.
-            return Derived::MmaOp::exec({}, {}, {});
+            return Derived::MmaOp::template exec<Params...>({}, {}, {});
         }
     }
 
@@ -162,11 +82,10 @@ struct MmaPipelineBase
     template <typename... Params, typename CTensor, typename ATensor, typename BTensor>
     CK_TILE_DEVICE void operator()(CTensor& c, ATensor& a, const BTensor& b) const
     {
-        exec(a, b, c);
+        exec<Params...>(a, b, c);
     }
 
-    template <index_t opselA,
-              index_t opselB,
+    template <typename... Params,
               typename ATensor,
               typename BTensor,
               typename CTensor,
@@ -180,7 +99,7 @@ struct MmaPipelineBase
 
         if constexpr(MmaOpTraits<typename Derived::MmaOp>::IsSupported)
         {
-            if constexpr(Flags & MmaPipelineOptionFlag::ABSwap)
+            if constexpr(Derived::CTranspose)
             {
                 // TODO: Figure out which combination of a/b, scale_A/B, and opselA/B needs to be
                 // AB-swapped in order to get correct results. Note that WarpGemmParamsParser
@@ -188,7 +107,7 @@ struct MmaPipelineBase
                 decltype(auto) a_transformed = Derived::ATransform::exec(b);
                 decltype(auto) b_transformed = Derived::BTransform::exec(a);
                 decltype(auto) c_transformed = Derived::CTransform::exec(accum);
-                Derived::template execImpl<opselA, opselB>(
+                Derived::template execImpl<Params...>(
                     a_transformed, b_transformed, c_transformed, scale_A, scale_B);
                 return Derived::DTransform::exec(c_transformed);
             }
@@ -197,7 +116,7 @@ struct MmaPipelineBase
                 decltype(auto) a_transformed = Derived::ATransform::exec(a);
                 decltype(auto) b_transformed = Derived::BTransform::exec(b);
                 decltype(auto) c_transformed = Derived::CTransform::exec(accum);
-                Derived::template execImpl<opselA, opselB>(
+                Derived::template execImpl<Params...>(
                     a_transformed, b_transformed, c_transformed, scale_A, scale_B);
                 return Derived::DTransform::exec(c_transformed);
             }
@@ -219,8 +138,7 @@ struct MmaPipelineBase
                                    const int32_t& a_scale,
                                    const int32_t& b_scale) const
     {
-        using P = WarpGemmParamsParser<Params...>;
-        exec<P::op_sel_a, P::op_sel_b>(a, b, c, a_scale, b_scale);
+        exec<Params...>(a, b, c, a_scale, b_scale);
     }
 };
 
@@ -232,8 +150,8 @@ struct MmaPipelineBase
  * @concept MmaPipelineI
  * @brief  Expresses the meta-data interface required for a CRTP MmaPipeline.
  */
-template <typename Derived, MmaPipelineOptionFlags::Type Flags>
-concept MmaPipelineInterface = std::derived_from<Derived, MmaPipelineBase<Flags, Derived>>;
+template <typename Derived>
+concept MmaPipelineInterface = std::derived_from<Derived, MmaPipelineBase<Derived>>;
 
 #endif // CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
 
diff --git a/include/ck_tile/core/arch/mma/mma_selector.hpp b/include/ck_tile/core/arch/mma/mma_selector.hpp
index 8491f96837..b8d6f31558 100644
--- a/include/ck_tile/core/arch/mma/mma_selector.hpp
+++ b/include/ck_tile/core/arch/mma/mma_selector.hpp
@@ -49,7 +49,6 @@ struct MmaDefaultSelector
                                   WaveTileM,
                                   WaveTileN,
                                   WaveTileK,
-                                  void,
                                   amdgcn_target<>,
                                   MmaOpFamily::UNDEFINED>;
 };
@@ -88,7 +87,6 @@ template <typename ADataType,
           uint32_t WaveTileM,
           uint32_t WaveTileN,
           uint32_t WaveTileKTest,
-          typename CtrlFlags,
           typename CompilerTarget, // TODO: c++20 amdgcn_target_arch_id CompilerTarget>
           MmaOpFamily OpFamily>
 struct MmaKSearchSelector
@@ -102,7 +100,6 @@ struct MmaKSearchSelector
                                    WaveTileM,
                                    WaveTileN,
                                    WaveTileKTest,
-                                   CtrlFlags,
                                    CompilerTarget,
                                    OpFamily>;
 
@@ -118,7 +115,6 @@ struct MmaKSearchSelector
                                                                       WaveTileM,
                                                                       WaveTileN,
                                                                       WaveTileKTest / 2u,
-                                                                      CtrlFlags,
                                                                       CompilerTarget,
                                                                       OpFamily>::SelectedOp>;
 };
@@ -128,7 +124,6 @@ template <typename ADataType,
           typename CDataType,
           uint32_t WaveTileM,
           uint32_t WaveTileN,
-          typename CtrlFlags,
           typename CompilerTarget, // TODO: c++20 amdgcn_target_arch_id CompilerTarget>
           MmaOpFamily OpFamily>
 struct MmaKSearchSelector<ADataType,
@@ -137,20 +132,12 @@ struct MmaKSearchSelector<ADataType,
                           WaveTileM,
                           WaveTileN,
                           0u,
-                          CtrlFlags,
                           CompilerTarget,
                           OpFamily>
 {
     // Recursion endpoint: unsupported default implementation.
-    using SelectedOp = amdgcn_mma<ADataType,
-                                  BDataType,
-                                  CDataType,
-                                  1u,
-                                  1u,
-                                  1u,
-                                  CtrlFlags,
-                                  CompilerTarget,
-                                  OpFamily>;
+    using SelectedOp =
+        amdgcn_mma<ADataType, BDataType, CDataType, 1u, 1u, 1u, CompilerTarget, OpFamily>;
 };
 
 } // namespace ck_tile::core::arch::mma
diff --git a/include/ck_tile/core/arch/mma/mma_traits.hpp b/include/ck_tile/core/arch/mma/mma_traits.hpp
index 88764a75b0..863ad07bbb 100644
--- a/include/ck_tile/core/arch/mma/mma_traits.hpp
+++ b/include/ck_tile/core/arch/mma/mma_traits.hpp
@@ -6,11 +6,8 @@
 #include "ck_tile/core/arch/mma/mma_op_family.hpp"
 #include "ck_tile/core/config.hpp"
 #include "mfma/mfma_traits.hpp"
-#include "scale/scale_traits.hpp"
-#include "sparse/sparse_traits.hpp"
 #include "wmma/wmma_traits.hpp"
 
-#include <cstdint>
 #include <stdio.h>
 #include <type_traits>
 
@@ -61,7 +58,6 @@ struct MmaOpTraits;
  * @tparam FragM_ Size of the M dimension
  * @tparam FragN_ Size of the N dimension
  * @tparam FragK_ Size of the K dimension
- * @tparam CtrlFlags_ Control flags for the MMA operation
  * @tparam CompilerTarget_ The compiler target
  */
 template <typename ADataType_,
@@ -70,7 +66,6 @@ template <typename ADataType_,
           uint32_t FragM_,
           uint32_t FragN_,
           uint32_t FragK_,
-          typename CtrlFlags_,
           typename CompilerTarget_,
           MmaOpFamily OpFamily_>
 // TODO: c++20 amdgcn_target_arch_id CompilerTarget_>
@@ -80,7 +75,6 @@ struct MmaOpTraits<amdgcn_mma<ADataType_,
                               FragM_,
                               FragN_,
                               FragK_,
-                              CtrlFlags_,
                               CompilerTarget_,
                               OpFamily_>>
 {
@@ -90,12 +84,10 @@ struct MmaOpTraits<amdgcn_mma<ADataType_,
                              FragM_,
                              FragN_,
                              FragK_,
-                             CtrlFlags_,
                              CompilerTarget_,
                              OpFamily_>;
 
     // Capture incoming template parameters not already in amdgcn
-    using CtrlFlags      = CtrlFlags_;
     using CompilerTarget = CompilerTarget_;
     // TODO c++20static constexpr amdgcn_target_arch_id GfxTargetId = CompilerTarget_;
 
@@ -115,7 +107,6 @@ template <typename ADataType_,
           uint32_t FragM_,
           uint32_t FragN_,
           uint32_t FragK_,
-          typename CtrlFlags_,
           typename CompilerTarget_,
           MmaOpFamily OpFamily_>
 CK_TILE_HOST_DEVICE void print(MmaOpTraits<amdgcn_mma<ADataType_,
@@ -124,7 +115,6 @@ CK_TILE_HOST_DEVICE void print(MmaOpTraits<amdgcn_mma<ADataType_,
                                                       FragM_,
                                                       FragN_,
                                                       FragK_,
-                                                      CtrlFlags_,
                                                       CompilerTarget_,
                                                       OpFamily_>> const& traitsObj)
 {
@@ -134,7 +124,6 @@ CK_TILE_HOST_DEVICE void print(MmaOpTraits<amdgcn_mma<ADataType_,
                      FragM_,
                      FragN_,
                      FragK_,
-                     CtrlFlags_,
                      CompilerTarget_,
                      OpFamily_>{});
     printf(
diff --git a/include/ck_tile/core/arch/mma/mma_wavewise.hpp b/include/ck_tile/core/arch/mma/mma_wavewise.hpp
index 5894a520ea..253457525b 100644
--- a/include/ck_tile/core/arch/mma/mma_wavewise.hpp
+++ b/include/ck_tile/core/arch/mma/mma_wavewise.hpp
@@ -28,15 +28,6 @@ enum struct MmaAccumPolicy
     COL_MAJOR
 };
 
-namespace dense::wavewise::detail {
-// TODO: c++20: return MmaPipelineOptionFlags directly
-template <bool SwapAB>
-constexpr inline int getPipelineFlags()
-{
-    return static_cast<int>(SwapAB ? MmaPipelineOptionFlag::ABSwap : MmaPipelineOptionFlag::NONE);
-}
-} // namespace dense::wavewise::detail
-
 /**
  * @class Mma
  * @brief Driver for the wave-tile Mma operation. Given a backend MmaOp implementation
@@ -50,7 +41,7 @@ constexpr inline int getPipelineFlags()
  * @tparam WaveTileN       Mma WaveTile N dimension
  * @tparam WaveTileK       Mma WaveTile K dimension
  * @tparam AccumPolicy     The fragment order of the accum. registers (row or col major frag order)
- * @tparam CTranspose      Swaps A and B input vectors and interprets C with transposed layout.
+ * @tparam CTranspose_     Swaps A and B input vectors and interprets C with transposed layout.
  * @tparam SwizzleFactor   SwizzleFactor for Tile Distribution Encoding calculation.
  * @tparam AttrNumAccessAV Extra unmerge factor for vector dimension for A vec, see amdgcn_mma.hpp.
  * @tparam AttrNumAccessBV Extra unmerge factor for vector dimension for B vec, see amdgcn_mma.hpp.
@@ -72,7 +63,7 @@ template <typename ADataType_,
           uint32_t WaveTileN,
           uint32_t WaveTileK,
           MmaAccumPolicy AccumPolicy = MmaAccumPolicy::ROW_MAJOR,
-          bool CTranspose            = false,
+          bool CTranspose_           = false,
           index_t SwizzleFactor      = 1,
           index_t AttrNumAccessAV    = 1,
           index_t AttrNumAccessBV    = AttrNumAccessAV,
@@ -92,11 +83,12 @@ template <typename ADataType_,
           typename MmaTransforms = // TODO: c++20 MmaTransformsI MmaTransforms =
           typename MmaTransformsDefaultSelector<MmaOp_, CompilerTarget>::SelectedTransforms>
 // clang-format off
-struct WaveWiseMmaPipeline : public MmaPipelineBase<dense::wavewise::detail::getPipelineFlags<CTranspose>(), WaveWiseMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>
+struct WaveWiseMmaPipeline : public MmaPipelineBase<WaveWiseMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose_, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>
 {
-    using Base = MmaPipelineBase<dense::wavewise::detail::getPipelineFlags<CTranspose>(), WaveWiseMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>;
+    using Base = MmaPipelineBase<WaveWiseMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose_, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>;
     // clang-format on
-    using MmaOp = MmaOp_;
+    using MmaOp                      = MmaOp_;
+    static constexpr bool CTranspose = CTranspose_;
 
     using ADataType = typename MmaOp::ADataType;
     using BDataType = typename MmaOp::BDataType;
@@ -185,7 +177,7 @@ struct WaveWiseMmaPipeline : public MmaPipelineBase<dense::wavewise::detail::get
     static_assert(WaveTileK % MmaOp::kK == 0u, "WaveTileK must be a multiple of MmaOp::kK");
 
     // TODO: Why does this even need to be a template? The types should be known.
-    template <typename ATensor, typename BTensor, typename CTensor>
+    template <typename... Params, typename ATensor, typename BTensor, typename CTensor>
     CK_TILE_DEVICE static void execImpl(ATensor& a, BTensor& b, CTensor& c)
     {
         static_assert(
@@ -205,9 +197,10 @@ struct WaveWiseMmaPipeline : public MmaPipelineBase<dense::wavewise::detail::get
                 {
                     for(uint32_t bk = 0u; bk < FragsK; ++bk)
                     {
-                        c_buf.at(bm * FragsN + bn) = MmaOp::exec(a_buf.at(bm * FragsK + bk),
-                                                                 b_buf.at(bn * FragsK + bk),
-                                                                 c_buf.at(bm * FragsN + bn));
+                        c_buf.at(bm * FragsN + bn) =
+                            MmaOp::template exec<Params...>(a_buf.at(bm * FragsK + bk),
+                                                            b_buf.at(bn * FragsK + bk),
+                                                            c_buf.at(bm * FragsN + bn));
                     }
                 }
             }
@@ -220,9 +213,10 @@ struct WaveWiseMmaPipeline : public MmaPipelineBase<dense::wavewise::detail::get
                 {
                     for(uint32_t bk = 0u; bk < FragsK; ++bk)
                     {
-                        c_buf.at(bm * FragsN + bn) = MmaOp::exec(a_buf.at(bm * FragsK + bk),
-                                                                 b_buf.at(bn * FragsK + bk),
-                                                                 c_buf.at(bm * FragsN + bn));
+                        c_buf.at(bm * FragsN + bn) =
+                            MmaOp::template exec<Params...>(a_buf.at(bm * FragsK + bk),
+                                                            b_buf.at(bn * FragsK + bk),
+                                                            c_buf.at(bm * FragsN + bn));
                     }
                 }
             }
diff --git a/include/ck_tile/core/arch/mma/scale/mfma/scale_gfx9.hpp b/include/ck_tile/core/arch/mma/scale/mfma/scale_gfx9.hpp
index f9245dc06f..32dd252d0d 100644
--- a/include/ck_tile/core/arch/mma/scale/mfma/scale_gfx9.hpp
+++ b/include/ck_tile/core/arch/mma/scale/mfma/scale_gfx9.hpp
@@ -13,6 +13,7 @@
 #include "ck_tile/core/numeric/pk_fp4.hpp"
 #include "ck_tile/core/numeric/vector_type.hpp"
 #include "ck_tile/core/utility/bit_cast.hpp"
+#include "ck_tile/ops/gemm/warp/warp_gemm_params.hpp"
 
 namespace ck_tile::core::arch::mma {
 
@@ -23,14 +24,13 @@ namespace ck_tile::core::arch::mma {
  * This specialization implements the Scale MFMA instruction for fp8_t A and B
  * matrices with fp32_t accumulator, with 16x16x128 block sizes.
  *
- * @tparam CtrlFlags      Control flags for the Scale MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsScaleMfmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
-struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 128u, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, fp8_t, fp32_t, 16u, 16u, 128u, 64u, 32, 2, 1, 2, 1, 4, 1, MfmaOp, MmaOpFamily::SCALE>
 //               | A B C DataTypes    | MNK + WaveSize     |AParams  |BPar |CPar |
 // clang-format on
@@ -38,19 +38,20 @@ struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarge
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_mfma_scale_f32_16x16x128_f8f6f4";
 
-    template <index_t opselA, index_t opselB>
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int scale_A, int scale_B)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_mfma_scale_f32_16x16x128_f8f6f4(
             bit_cast<int32x8_t>(aVec),
             bit_cast<int32x8_t>(bVec),
             cVec,
             scale::detail::ScaleDataTypeToFlag_v<fp8_t>,
             scale::detail::ScaleDataTypeToFlag_v<fp8_t>,
-            opselA,
+            P::op_sel_a,
             scale_A,
-            opselB,
+            P::op_sel_b,
             scale_B)};
     }
 };
@@ -62,14 +63,13 @@ struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarge
  * This specialization implements the Scale MFMA instruction for bf8_t A and B
  * matrices with fp32_t accumulator, with 16x16x128 block sizes.
  *
- * @tparam CtrlFlags      Control flags for the Scale MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsScaleMfmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
-struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 128u, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, bf8_t, fp32_t, 16u, 16u, 128u, 64u, 32, 2, 1, 2, 1, 4, 1, MfmaOp, MmaOpFamily::SCALE>
 //               | A B C DataTypes    | MNK + WaveSize     |AParams  |BPar |CPar |
 // clang-format on
@@ -77,19 +77,20 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarge
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_mfma_scale_f32_16x16x128_f8f6f4";
 
-    template <index_t opselA, index_t opselB>
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int scale_A, int scale_B)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_mfma_scale_f32_16x16x128_f8f6f4(
             bit_cast<int32x8_t>(aVec),
             bit_cast<int32x8_t>(bVec),
             cVec,
             scale::detail::ScaleDataTypeToFlag_v<bf8_t>,
             scale::detail::ScaleDataTypeToFlag_v<bf8_t>,
-            opselA,
+            P::op_sel_a,
             scale_A,
-            opselB,
+            P::op_sel_b,
             scale_B)};
     }
 };
@@ -101,14 +102,13 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarge
  * This specialization implements the Scale MFMA instruction for pk_fp4_t A and B
  * matrices with fp32_t accumulator, with 16x16x128 block sizes.
  *
- * @tparam CtrlFlags      Control flags for the Scale MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsScaleMfmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
-struct amdgcn_mma<pk_fp4_t, pk_fp4_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<pk_fp4_t, pk_fp4_t, fp32_t, 16u, 16u, 128u, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<pk_fp4_t, pk_fp4_t, fp32_t, 16u, 16u, 128u, 64u, 32, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::SCALE>
 //               | A B C DataTypes          | MNK + WaveSize     |AParams  |BPar |CPar |
 // clang-format on
@@ -116,10 +116,11 @@ struct amdgcn_mma<pk_fp4_t, pk_fp4_t, fp32_t, 16u, 16u, 128u, CtrlFlags, Compile
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_mfma_scale_f32_16x16x128_f8f6f4";
 
-    template <index_t opselA, index_t opselB>
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int scale_A, int scale_B)
     {
+        using P         = WarpGemmParamsParser<Params...>;
         int32x4_t arg_a = bit_cast<int32x4_t>(aVec);
         int32x4_t arg_b = bit_cast<int32x4_t>(bVec);
 
@@ -129,9 +130,9 @@ struct amdgcn_mma<pk_fp4_t, pk_fp4_t, fp32_t, 16u, 16u, 128u, CtrlFlags, Compile
             cVec,
             scale::detail::ScaleDataTypeToFlag_v<pk_fp4_t>,
             scale::detail::ScaleDataTypeToFlag_v<pk_fp4_t>,
-            opselA,
+            P::op_sel_a,
             scale_A,
-            opselB,
+            P::op_sel_b,
             scale_B)};
     }
 };
@@ -143,33 +144,33 @@ struct amdgcn_mma<pk_fp4_t, pk_fp4_t, fp32_t, 16u, 16u, 128u, CtrlFlags, Compile
  * This specialization implements the Scale MFMA instruction for pk_fp6x16_t A and B
  * matrices with fp32_t accumulator, with 16x16x128 block sizes.
  *
- * @tparam CtrlFlags      Control flags for the Scale MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsScaleMfmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
-struct amdgcn_mma<pk_fp6x16_t, pk_fp6x16_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<pk_fp6x16_t, pk_fp6x16_t, fp32_t, 16u, 16u, 128u, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<pk_fp6x16_t, pk_fp6x16_t, fp32_t, 16u, 16u, 128u, 64u, 32, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::SCALE>
 //               | A B C DataTypes                | MNK + WaveSize     |AParams  |BPar |CPar |
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_mfma_scale_f32_16x16x128_f8f6f4";
 
-    template <index_t opselA, index_t opselB>
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int scale_A, int scale_B)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_mfma_scale_f32_16x16x128_f8f6f4(
             int32x8_t{aVec.data[0], aVec.data[1], aVec.data[2], aVec.data[3], aVec.data[4], aVec.data[5], 0, 0},
             int32x8_t{bVec.data[0], bVec.data[1], bVec.data[2], bVec.data[3], bVec.data[4], bVec.data[5], 0, 0},
             cVec,
             scale::detail::ScaleDataTypeToFlag_v<pk_fp6x16_t>,
             scale::detail::ScaleDataTypeToFlag_v<pk_fp6x16_t>,
-            opselA,
+            P::op_sel_a,
             scale_A,
-            opselB,
+            P::op_sel_b,
             scale_B)};
     }
 };
@@ -182,33 +183,33 @@ struct amdgcn_mma<pk_fp6x16_t, pk_fp6x16_t, fp32_t, 16u, 16u, 128u, CtrlFlags, C
  * This specialization implements the Scale MFMA instruction for pk_bf6x16_t A and B
  * matrices with fp32_t accumulator, with 16x16x128 block sizes.
  *
- * @tparam CtrlFlags      Control flags for the Scale MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsScaleMfmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
-struct amdgcn_mma<pk_bf6x16_t, pk_bf6x16_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<pk_bf6x16_t, pk_bf6x16_t, fp32_t, 16u, 16u, 128u, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<pk_bf6x16_t, pk_bf6x16_t, fp32_t, 16u, 16u, 128u, 64u, 32, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::SCALE>
 //               | A B C DataTypes                | MNK + WaveSize     |AParams  |BPar |CPar |
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_mfma_scale_f32_16x16x128_f8f6f4";
     
-    template <index_t opselA, index_t opselB>
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int scale_A, int scale_B)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_mfma_scale_f32_16x16x128_f8f6f4(
             int32x8_t{aVec.data[0], aVec.data[1], aVec.data[2], aVec.data[3], aVec.data[4], aVec.data[5], 0, 0},
             int32x8_t{bVec.data[0], bVec.data[1], bVec.data[2], bVec.data[3], bVec.data[4], bVec.data[5], 0, 0},
             cVec,
             scale::detail::ScaleDataTypeToFlag_v<pk_bf6x16_t>,
             scale::detail::ScaleDataTypeToFlag_v<pk_bf6x16_t>,
-            opselA,
+            P::op_sel_a,
             scale_A,
-            opselB,
+            P::op_sel_b,
             scale_B)};
     }
 };
@@ -221,14 +222,13 @@ struct amdgcn_mma<pk_bf6x16_t, pk_bf6x16_t, fp32_t, 16u, 16u, 128u, CtrlFlags, C
  * This specialization implements the Scale MFMA instruction for fp8_t A and B
  * matrices with fp32_t accumulator, with 32x32x64 block sizes.
  *
- * @tparam CtrlFlags      Control flags for the Scale MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsScaleMfmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
-struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 64u, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, fp8_t, fp32_t, 32u, 32u, 64u, 64u, 32, 2, 1, 2, 1, 16, 4, MfmaOp, MmaOpFamily::SCALE>
 //               | A B C DataTypes    | MNK + WaveSize    |AParams  |BPar |CPar  |
 // clang-format on
@@ -236,19 +236,20 @@ struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_mfma_scale_f32_32x32x64_f8f6f4";
 
-    template <index_t opselA, index_t opselB>
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int scale_A, int scale_B)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_mfma_scale_f32_32x32x64_f8f6f4(
             bit_cast<int32x8_t>(aVec),
             bit_cast<int32x8_t>(bVec),
             cVec,
             scale::detail::ScaleDataTypeToFlag_v<fp8_t>,
             scale::detail::ScaleDataTypeToFlag_v<fp8_t>,
-            opselA,
+            P::op_sel_a,
             scale_A,
-            opselB,
+            P::op_sel_b,
             scale_B)};
     }
 };
@@ -260,14 +261,13 @@ struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget
  * This specialization implements the Scale MFMA instruction for bf8_t A and B
  * matrices with fp32_t accumulator, with 32x32x64 block sizes.
  *
- * @tparam CtrlFlags      Control flags for the Scale MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsScaleMfmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
-struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 64u, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, bf8_t, fp32_t, 32u, 32u, 64u, 64u, 32, 2, 1, 2, 1, 16, 4, MfmaOp, MmaOpFamily::SCALE>
 //               | A B C DataTypes    | MNK + WaveSize    |AParams  |BPar |CPar  |
 // clang-format on
@@ -275,19 +275,20 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_mfma_scale_f32_32x32x64_f8f6f4";
 
-    template <index_t opselA, index_t opselB>
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int scale_A, int scale_B)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_mfma_scale_f32_32x32x64_f8f6f4(
             bit_cast<int32x8_t>(aVec),
             bit_cast<int32x8_t>(bVec),
             cVec,
             scale::detail::ScaleDataTypeToFlag_v<bf8_t>,
             scale::detail::ScaleDataTypeToFlag_v<bf8_t>,
-            opselA,
+            P::op_sel_a,
             scale_A,
-            opselB,
+            P::op_sel_b,
             scale_B)};
     }
 };
@@ -299,14 +300,13 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget
  * This specialization implements the Scale MFMA instruction for pk_fp4_t A and B
  * matrices with fp32_t accumulator, with 32x32x64 block sizes.
  *
- * @tparam CtrlFlags      Control flags for the Scale MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsScaleMfmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
-struct amdgcn_mma<pk_fp4_t, pk_fp4_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>> 
+struct amdgcn_mma<pk_fp4_t, pk_fp4_t, fp32_t, 32u, 32u, 64u, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>> 
 : amdgcn_mma_base<pk_fp4_t, pk_fp4_t, fp32_t, 32u, 32u, 64u, 64u, 32, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::SCALE>
 //               | A B C DataTypes          | MNK + WaveSize    |AParams  |BPar |CPar  |
 // clang-format on
@@ -314,10 +314,11 @@ struct amdgcn_mma<pk_fp4_t, pk_fp4_t, fp32_t, 32u, 32u, 64u, CtrlFlags, Compiler
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_mfma_scale_f32_32x32x64_f8f6f4";
 
-    template <index_t opselA, index_t opselB>
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int scale_A, int scale_B)
     {
+        using P         = WarpGemmParamsParser<Params...>;
         int32x4_t arg_a = bit_cast<int32x4_t>(aVec);
         int32x4_t arg_b = bit_cast<int32x4_t>(bVec);
 
@@ -327,9 +328,9 @@ struct amdgcn_mma<pk_fp4_t, pk_fp4_t, fp32_t, 32u, 32u, 64u, CtrlFlags, Compiler
             cVec,
             scale::detail::ScaleDataTypeToFlag_v<pk_fp4_t>,
             scale::detail::ScaleDataTypeToFlag_v<pk_fp4_t>,
-            opselA,
+            P::op_sel_a,
             scale_A,
-            opselB,
+            P::op_sel_b,
             scale_B)};
     }
 };
@@ -341,33 +342,33 @@ struct amdgcn_mma<pk_fp4_t, pk_fp4_t, fp32_t, 32u, 32u, 64u, CtrlFlags, Compiler
  * This specialization implements the Scale MFMA instruction for pk_fp6x16_t A and B
  * matrices with fp32_t accumulator, with 32x32x64 block sizes.
  *
- * @tparam CtrlFlags      Control flags for the Scale MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsScaleMfmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
-struct amdgcn_mma<pk_fp6x16_t, pk_fp6x16_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<pk_fp6x16_t, pk_fp6x16_t, fp32_t, 32u, 32u, 64u, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<pk_fp6x16_t, pk_fp6x16_t, fp32_t, 32u, 32u, 64u, 64u, 32, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::SCALE>
 //               | A B C DataTypes                | MNK + WaveSize    |AParams  |BPar |CPar  |
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_mfma_scale_f32_32x32x64_f8f6f4";
 
-    template <index_t opselA, index_t opselB>
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int scale_A, int scale_B)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_mfma_scale_f32_32x32x64_f8f6f4(
             int32x8_t{aVec.data[0], aVec.data[1], aVec.data[2], aVec.data[3], aVec.data[4], aVec.data[5], 0, 0},
             int32x8_t{bVec.data[0], bVec.data[1], bVec.data[2], bVec.data[3], bVec.data[4], bVec.data[5], 0, 0},
             cVec,
             scale::detail::ScaleDataTypeToFlag_v<pk_fp6x16_t>,
             scale::detail::ScaleDataTypeToFlag_v<pk_fp6x16_t>,
-            opselA,
+            P::op_sel_a,
             scale_A,
-            opselB,
+            P::op_sel_b,
             scale_B)};
     }
 };
@@ -380,33 +381,33 @@ struct amdgcn_mma<pk_fp6x16_t, pk_fp6x16_t, fp32_t, 32u, 32u, 64u, CtrlFlags, Co
  * This specialization implements the Scale MFMA instruction for pk_bf6x16_t A and B
  * matrices with fp32_t accumulator, with 32x32x64 block sizes.
  *
- * @tparam CtrlFlags      Control flags for the Scale MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsScaleMfmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
-struct amdgcn_mma<pk_bf6x16_t, pk_bf6x16_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<pk_bf6x16_t, pk_bf6x16_t, fp32_t, 32u, 32u, 64u, CompilerTarget, MmaOpFamily::SCALE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<pk_bf6x16_t, pk_bf6x16_t, fp32_t, 32u, 32u, 64u, 64u, 32, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::SCALE>
 //               | A B C DataTypes                | MNK + WaveSize    |AParams  |BPar |CPar  |
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_mfma_scale_f32_32x32x64_f8f6f4";
 
-    template <index_t opselA, index_t opselB>
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int scale_A, int scale_B)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_mfma_scale_f32_32x32x64_f8f6f4(
             int32x8_t{aVec.data[0], aVec.data[1], aVec.data[2], aVec.data[3], aVec.data[4], aVec.data[5], 0, 0},
             int32x8_t{bVec.data[0], bVec.data[1], bVec.data[2], bVec.data[3], bVec.data[4], bVec.data[5], 0, 0},
             cVec,
             scale::detail::ScaleDataTypeToFlag_v<pk_bf6x16_t>,
             scale::detail::ScaleDataTypeToFlag_v<pk_bf6x16_t>,
-            opselA,
+            P::op_sel_a,
             scale_A,
-            opselB,
+            P::op_sel_b,
             scale_B)};
     }
 };
diff --git a/include/ck_tile/core/arch/mma/scale/mfma/selector.hpp b/include/ck_tile/core/arch/mma/scale/mfma/selector.hpp
index cb7e68a2c7..bfdb78de09 100644
--- a/include/ck_tile/core/arch/mma/scale/mfma/selector.hpp
+++ b/include/ck_tile/core/arch/mma/scale/mfma/selector.hpp
@@ -55,7 +55,6 @@ struct MmaDefaultSelector<ADataType,
                                   WaveTileM,
                                   WaveTileN,
                                   WaveTileK,
-                                  DefaultScaleMfmaCtrlFlags,
                                   CompilerTarget,
                                   MmaOpFamily::SCALE>;
 };
diff --git a/include/ck_tile/core/arch/mma/scale/scale_mma_pipeline.hpp b/include/ck_tile/core/arch/mma/scale/scale_mma_pipeline.hpp
index 45c3d71789..bed2a6506b 100644
--- a/include/ck_tile/core/arch/mma/scale/scale_mma_pipeline.hpp
+++ b/include/ck_tile/core/arch/mma/scale/scale_mma_pipeline.hpp
@@ -32,7 +32,7 @@ namespace ck_tile::core::arch::mma {
  * @tparam WaveTileN       Mma WaveTile N dimension
  * @tparam WaveTileK       Mma WaveTile K dimension
  * @tparam AccumPolicy     The fragment order of the accum. registers (row or col major frag order)
- * @tparam CTranspose      Swaps A and B input vectors and interprets C with transposed layout.
+ * @tparam CTranspose_     Swaps A and B input vectors and interprets C with transposed layout.
  * @tparam SwizzleFactor   Swizzlefactor for Tile Distribution Encoding calculation.
  * @tparam AttrNumAccessAV Extra unmerge factor for vector dimension for A vec, see amdgcn_mma.hpp.
  * @tparam AttrNumAccessBV Extra unmerge factor for vector dimension for B vec, see amdgcn_mma.hpp.
@@ -47,7 +47,7 @@ template <typename ADataType_,
           uint32_t WaveTileN,
           uint32_t WaveTileK,
           MmaAccumPolicy AccumPolicy = MmaAccumPolicy::ROW_MAJOR,
-          bool CTranspose            = false,
+          bool CTranspose_           = false,
           index_t SwizzleFactor      = 1,
           index_t AttrNumAccessAV    = 1,
           index_t AttrNumAccessBV    = AttrNumAccessAV,
@@ -67,12 +67,13 @@ template <typename ADataType_,
           typename MmaTransforms = // TODO: c++20 MmaTransformsI MmaTransforms =
           typename MmaTransformsDefaultSelector<MmaOp_, CompilerTarget>::SelectedTransforms>
 // clang-format off
-struct ScaleMmaPipeline : public MmaPipelineBase<static_cast<int>(MmaPipelineOptionFlag::NONE), ScaleMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>
+struct ScaleMmaPipeline : public MmaPipelineBase<ScaleMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose_, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>
 {
-    using Base = MmaPipelineBase<static_cast<int>(MmaPipelineOptionFlag::NONE), ScaleMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>;
+    using Base = MmaPipelineBase<ScaleMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose_, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>;
     // clang-format on
 
-    using MmaOp = MmaOp_; // Expose the selected MmaOp
+    using MmaOp                      = MmaOp_; // Expose the selected MmaOp
+    static constexpr bool CTranspose = CTranspose_;
 
     using ADataType = typename MmaOp::ADataType;
     using BDataType = typename MmaOp::BDataType;
@@ -170,8 +171,7 @@ struct ScaleMmaPipeline : public MmaPipelineBase<static_cast<int>(MmaPipelineOpt
     static_assert(WaveTileK % MmaOp::kK == 0u, "WaveTileK must be a multiple of MmaOp::kK");
 
     // TODO: Why does this even need to be a template? The types should be known.
-    template <index_t opselA,
-              index_t opselB,
+    template <typename... Params,
               typename ATensor,
               typename BTensor,
               typename CTensor,
@@ -198,11 +198,11 @@ struct ScaleMmaPipeline : public MmaPipelineBase<static_cast<int>(MmaPipelineOpt
                     for(uint32_t bk = 0u; bk < FragsK; ++bk)
                     {
                         c_buf.at(bm * FragsN + bn) =
-                            MmaOp::template exec<opselA, opselB>(a_buf.at(bm * FragsK + bk),
-                                                                 b_buf.at(bn * FragsK + bk),
-                                                                 c_buf.at(bm * FragsN + bn),
-                                                                 scale_A,
-                                                                 scale_B);
+                            MmaOp::template exec<Params...>(a_buf.at(bm * FragsK + bk),
+                                                            b_buf.at(bn * FragsK + bk),
+                                                            c_buf.at(bm * FragsN + bn),
+                                                            scale_A,
+                                                            scale_B);
                     }
                 }
             }
@@ -216,11 +216,11 @@ struct ScaleMmaPipeline : public MmaPipelineBase<static_cast<int>(MmaPipelineOpt
                     for(uint32_t bk = 0u; bk < FragsK; ++bk)
                     {
                         c_buf.at(bm * FragsN + bn) =
-                            MmaOp::template exec<opselA, opselB>(a_buf.at(bm * FragsK + bk),
-                                                                 b_buf.at(bn * FragsK + bk),
-                                                                 c_buf.at(bm * FragsN + bn),
-                                                                 scale_A,
-                                                                 scale_B);
+                            MmaOp::template exec<Params...>(a_buf.at(bm * FragsK + bk),
+                                                            b_buf.at(bn * FragsK + bk),
+                                                            c_buf.at(bm * FragsN + bn),
+                                                            scale_A,
+                                                            scale_B);
                     }
                 }
             }
diff --git a/include/ck_tile/core/arch/mma/scale/scale_traits.hpp b/include/ck_tile/core/arch/mma/scale/scale_traits.hpp
index fa55522015..ea879feebc 100644
--- a/include/ck_tile/core/arch/mma/scale/scale_traits.hpp
+++ b/include/ck_tile/core/arch/mma/scale/scale_traits.hpp
@@ -3,85 +3,32 @@
 
 #pragma once
 
-#include "ck_tile/core/arch/arch.hpp"
-#include "ck_tile/core/config.hpp"
 #include "ck_tile/core/numeric/float8.hpp"
 #include "ck_tile/core/numeric/pk_fp4.hpp"
 #include "ck_tile/core/numeric/pk_f6.hpp"
 
-#include <cstdint>
-#include <stdio.h>
-#if CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
-#include <concepts>
-#endif // CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
-
 namespace ck_tile::core::arch::mma {
-
 namespace scale::detail {
 
+// Utility for converting the datatype of the A or B input matrix in a scale intrinsics to the
+// appropriate datatype flag. Note that this is not the same as the flag indicating the scale
+// datatype, see ScaleDataTypeToEnum.
 template <typename T>
-struct ScaleDataTypeToFlag;
-
+inline constexpr int32_t ScaleDataTypeToFlag_v = [] {
+    // sizeof(T) trick to only trigger the static assert for unsupported datatypes.
+    static_assert(sizeof(T) == 0, "Unsupported scale data type");
+    return -1;
+}();
 template <>
-struct ScaleDataTypeToFlag<fp8_t> // e4m3 (4 exponent bits 3 mantissa bits)
-{
-    static constexpr int32_t value = 0;
-};
-
+inline constexpr int32_t ScaleDataTypeToFlag_v<fp8_t> = 0; // e4m3
 template <>
-struct ScaleDataTypeToFlag<bf8_t> // e5m2
-{
-    static constexpr int32_t value = 1;
-};
-
+inline constexpr int32_t ScaleDataTypeToFlag_v<bf8_t> = 1; // e5m2
 template <>
-struct ScaleDataTypeToFlag<pk_fp6x16_t> // e2m3
-{
-    static constexpr int32_t value = 2;
-};
-
+inline constexpr int32_t ScaleDataTypeToFlag_v<pk_fp6x16_t> = 2; // e2m3
 template <>
-struct ScaleDataTypeToFlag<pk_bf6x16_t> // e3m2
-{
-    static constexpr int32_t value = 3;
-};
-
+inline constexpr int32_t ScaleDataTypeToFlag_v<pk_bf6x16_t> = 3; // e3m2
 template <>
-struct ScaleDataTypeToFlag<pk_fp4_t> // e2m1
-{
-    static constexpr int32_t value = 4;
-};
-
-template <typename T>
-inline constexpr int32_t ScaleDataTypeToFlag_v = ScaleDataTypeToFlag<T>::value;
-
-#if CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
-
-/**
- * @concept ScaleMfmaDataTypeToFlag
- * @brief  Expresses the interface of required members for each DataTypeToFlag type on Gfx9
- */
-template <typename DataTypeToFlag>
-concept ScaleMfmaDataTypeToFlag = requires(DataTypeToFlag dataTypeToFlag) {
-    // Flag members for scale MFMA instructions
-    { DataTypeToFlag::value } -> std::convertible_to<int32_t>;
-};
-
-#endif // CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
+inline constexpr int32_t ScaleDataTypeToFlag_v<pk_fp4_t> = 4; // e2m1
 
 } // namespace scale::detail
-
-// No real flags for now, scale and opsel are handled in higher level and passed down directly.
-// OPSEL is now passed as a template arg to exec(), see mma_pipeline.hpp
-// We will soon get rid of these flags entirely in favor of variadic template packs passed down to
-// the intrinsics directly, see WarpGemmParamsParser<>.
-struct DefaultScaleMfmaCtrlFlags
-{
-};
-
-CK_TILE_HOST_DEVICE void print_flags([[maybe_unused]] DefaultScaleMfmaCtrlFlags const& ctrlFlags)
-{
-    printf("CtrlFlags: (empty)\n");
-}
-
 } // namespace ck_tile::core::arch::mma
diff --git a/include/ck_tile/core/arch/mma/sparse/mfma/selector.hpp b/include/ck_tile/core/arch/mma/sparse/mfma/selector.hpp
index 31a84ebf13..9ea90daab8 100644
--- a/include/ck_tile/core/arch/mma/sparse/mfma/selector.hpp
+++ b/include/ck_tile/core/arch/mma/sparse/mfma/selector.hpp
@@ -7,7 +7,6 @@
 #include "ck_tile/core/arch/mma/amdgcn_mma.hpp"
 #include "ck_tile/core/arch/mma/mma_selector.hpp"
 #include "ck_tile/core/arch/mma/mma_traits.hpp"
-#include "ck_tile/core/arch/mma/sparse/sparse_traits.hpp"
 
 namespace ck_tile::core::arch::mma {
 
@@ -55,7 +54,6 @@ struct MmaDefaultSelector<ADataType,
                                                    WaveTileM,
                                                    WaveTileN,
                                                    WaveTileK,
-                                                   DefaultSparseMfmaCtrlFlags,
                                                    CompilerTarget,
                                                    MmaOpFamily::SPARSE>::SelectedOp;
 };
diff --git a/include/ck_tile/core/arch/mma/sparse/mfma/sparse_gfx9.hpp b/include/ck_tile/core/arch/mma/sparse/mfma/sparse_gfx9.hpp
index 994489e9d0..bdb50cc232 100644
--- a/include/ck_tile/core/arch/mma/sparse/mfma/sparse_gfx9.hpp
+++ b/include/ck_tile/core/arch/mma/sparse/mfma/sparse_gfx9.hpp
@@ -7,11 +7,11 @@
 #include "ck_tile/core/arch/mma/amdgcn_mma.hpp"
 #include "ck_tile/core/arch/mma/mfma/mfma_traits.hpp"
 #include "ck_tile/core/arch/mma/mma_op_family.hpp"
-#include "ck_tile/core/arch/mma/sparse/sparse_traits.hpp"
 #include "ck_tile/core/config.hpp"
 #include "ck_tile/core/numeric/half.hpp"
 #include "ck_tile/core/numeric/vector_type.hpp"
 #include "ck_tile/core/utility/type_traits.hpp"
+#include "ck_tile/ops/gemm/warp/warp_gemm_params.hpp"
 
 #include <type_traits>
 
@@ -24,55 +24,55 @@ namespace ck_tile::core::arch::mma {
  * This specialization implements the SMFMA instruction for fp16_t A and B
  * matrices with structured sparsity, fp32_t accumulator, with 16x16x32 fragment sizes.
  *
- * @tparam CtrlFlags Control flags for the Sparse MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsSparseMfmaI CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, std::enable_if_t<is_any_value_of(CompilerTarget::TARGET_ID, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950)>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, 64u, 8, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x32_f16";
 
-    CK_TILE_DEVICE static auto
-    exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx) -> CVecType
+    template <typename... Params>
+    CK_TILE_DEVICE static CVecType
+    exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x32_f16(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
-    }
+        using P = WarpGemmParamsParser<Params...>;
+        return __builtin_amdgcn_smfmac_f32_16x16x32_f16(
+            aVec,
+            bVec,
+            cVec,
+            idx,
+            P::cbsz,  // Ignore abid and use first portion Y/N
+            P::abid); // Portion of idx VGPR containing idx info
+    };
 };
 
 /**
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX942 and GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 16u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 32u, 32u, 16u, 64u, 8, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x16_f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x16_f16(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_smfmac_f32_32x32x16_f16(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -80,27 +80,24 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX942 and GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, 64u, 8, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x32_bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x32_bf16(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_smfmac_f32_16x16x32_bf16(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -108,27 +105,24 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX942 and GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 16u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 32u, 32u, 16u, 64u, 8, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x16_bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x16_bf16(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_smfmac_f32_32x32x16_bf16(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -136,27 +130,24 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX942 and
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 16u, 16u, 64u, 64u, 16, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_i32_16x16x64_i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_i32_16x16x64_i8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_smfmac_i32_16x16x64_i8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -164,27 +155,24 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 64u, CtrlFlags, CompilerTar
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX942 and
  * GFX950 architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 32u, 32u, 32u, 64u, 16, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_i32_32x32x32_i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_i32_32x32x32_i8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_smfmac_i32_32x32x32_i8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -192,27 +180,25 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 32u, CtrlFlags, CompilerTar
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, bf8_t, fp32_t MMA operation on GFX942 and GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, bf8_t, fp32_t, 16u, 16u, 64u, 64u, 16, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x64_bf8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x64_bf8_bf8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_16x16x64_bf8_bf8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -220,27 +206,25 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, fp8_t, fp32_t MMA operation on GFX942 and GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, fp8_t, fp32_t, 16u, 16u, 64u, 64u, 16, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x64_bf8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x64_bf8_fp8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_16x16x64_bf8_fp8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -248,27 +232,25 @@ struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, bf8_t, fp32_t MMA operation on GFX942 and GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, bf8_t, fp32_t, 16u, 16u, 64u, 64u, 16, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x64_fp8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x64_fp8_bf8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_16x16x64_fp8_bf8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -276,27 +258,25 @@ struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, fp8_t, fp32_t MMA operation on GFX942 and GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, fp8_t, fp32_t, 16u, 16u, 64u, 64u, 16, 1, 1, 1, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x64_fp8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x64_fp8_fp8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_16x16x64_fp8_fp8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -304,27 +284,25 @@ struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, bf8_t, fp32_t MMA operation on GFX942 and GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, bf8_t, fp32_t, 32u, 32u, 32u, 64u, 16, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x32_bf8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x32_bf8_bf8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_32x32x32_bf8_bf8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -332,27 +310,25 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, fp8_t, fp32_t MMA operation on GFX942 and GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 32u, 32u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, fp8_t, fp32_t, 32u, 32u, 32u, 64u, 16, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x32_bf8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x32_bf8_fp8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_32x32x32_bf8_fp8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -360,27 +336,25 @@ struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, bf8_t, fp32_t MMA operation on GFX942 and GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 32u, 32u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, bf8_t, fp32_t, 32u, 32u, 32u, 64u, 16, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x32_fp8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x32_fp8_bf8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_32x32x32_fp8_bf8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -388,27 +362,25 @@ struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, fp8_t, fp32_t MMA operation on GFX942 and GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsCdna3I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX942, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, fp8_t, fp32_t, 32u, 32u, 32u, 64u, 16, 1, 1, 1, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x32_fp8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x32_fp8_fp8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_32x32x32_fp8_fp8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -416,27 +388,24 @@ struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 16u, 16u, 64u, 64u, 16, 1, 1, 2, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x64_f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x64_f16(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_smfmac_f32_16x16x64_f16(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -444,27 +413,24 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 32u, 32u, 32u, 64u, 16, 1, 1, 2, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x32_f16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x32_f16(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_smfmac_f32_32x32x32_f16(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -472,27 +438,24 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 16u, 16u, 64u, 64u, 16, 1, 1, 2, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x64_bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x64_bf16(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_smfmac_f32_16x16x64_bf16(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -500,27 +463,24 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 32u, 32u, 32u, 64u, 16, 1, 1, 2, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x32_bf16";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x32_bf16(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_smfmac_f32_32x32x32_bf16(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -528,27 +488,24 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 32u, 32u, 32u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 128u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 16u, 16u, 128u, 64u, 32, 1, 1, 2, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_i32_16x16x128_i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_i32_16x16x128_i8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_smfmac_i32_16x16x128_i8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -556,27 +513,24 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 128u, CtrlFlags, CompilerTa
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 32u, 32u, 64u, 64u, 32, 1, 1, 2, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_i32_32x32x64_i8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_i32_32x32x64_i8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {__builtin_amdgcn_smfmac_i32_32x32x64_i8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -584,27 +538,25 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 32u, 32u, 64u, CtrlFlags, CompilerTar
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, bf8_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 128u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, bf8_t, fp32_t, 16u, 16u, 128u, 64u, 32, 1, 1, 2, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x128_bf8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x128_bf8_bf8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_16x16x128_bf8_bf8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -612,27 +564,25 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, fp8_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 128u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, fp8_t, fp32_t, 16u, 16u, 128u, 64u, 32, 1, 1, 2, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x128_bf8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x128_bf8_fp8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_16x16x128_bf8_fp8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -640,27 +590,25 @@ struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, bf8_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 128u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, bf8_t, fp32_t, 16u, 16u, 128u, 64u, 32, 1, 1, 2, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x128_fp8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x128_fp8_bf8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_16x16x128_fp8_bf8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -668,27 +616,25 @@ struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, fp8_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 128u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, fp8_t, fp32_t, 16u, 16u, 128u, 64u, 32, 1, 1, 2, 1, 4, 1, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_16x16x128_fp8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_16x16x128_fp8_fp8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_16x16x128_fp8_fp8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -696,27 +642,25 @@ struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 128u, CtrlFlags, CompilerTarge
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, bf8_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, bf8_t, fp32_t, 32u, 32u, 64u, 64u, 32, 1, 1, 2, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x64_bf8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x64_bf8_bf8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_32x32x64_bf8_bf8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -724,27 +668,25 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, fp8_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 32u, 32u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<bf8_t, fp8_t, fp32_t, 32u, 32u, 64u, 64u, 32, 1, 1, 2, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x64_bf8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x64_bf8_fp8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_32x32x64_bf8_fp8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -752,27 +694,25 @@ struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, bf8_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 32u, 32u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, bf8_t, fp32_t, 32u, 32u, 64u, 64u, 32, 1, 1, 2, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x64_fp8_bf8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x64_fp8_bf8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_32x32x64_fp8_bf8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 
@@ -780,27 +720,25 @@ struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, fp8_t, fp32_t MMA operation on GFX950
  * architecture.
- * @tparam CtrlFlags Control flags for the MFMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx950I CtrlFlags, amdgcn_target CompilerTarget>
-// TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
+struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 32u, 32u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_id_t<CompilerTarget, amdgcn_target_id::GFX950>>
 : amdgcn_mma_base<fp8_t, fp8_t, fp32_t, 32u, 32u, 64u, 64u, 32, 1, 1, 2, 1, 16, 4, MfmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_smfmac_f32_32x32x64_fp8_fp8";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
-        using namespace sparse::detail;
-        static constexpr BuiltinParams PARAMS = getBuiltinParams<CtrlFlags::CompressionIndex>();
-        return {__builtin_amdgcn_smfmac_f32_32x32x64_fp8_fp8(
-            aVec, bVec, cVec, idx, PARAMS.UseFirstIndex, PARAMS.ByteIndexToOverride)};
+        using P = WarpGemmParamsParser<Params...>;
+        return {
+            __builtin_amdgcn_smfmac_f32_32x32x64_fp8_fp8(aVec, bVec, cVec, idx, P::cbsz, P::abid)};
     }
 };
 } // namespace ck_tile::core::arch::mma
diff --git a/include/ck_tile/core/arch/mma/sparse/sparse.hpp b/include/ck_tile/core/arch/mma/sparse/sparse.hpp
index e9792196c5..303687b1f8 100644
--- a/include/ck_tile/core/arch/mma/sparse/sparse.hpp
+++ b/include/ck_tile/core/arch/mma/sparse/sparse.hpp
@@ -11,5 +11,4 @@ namespace ck_tile::core::arch::mma {
 #include "ck_tile/core/arch/mma/sparse/mfma/sparse_gfx9.hpp"
 #include "ck_tile/core/arch/mma/sparse/wmma/sparse_gfx12.hpp"
 #include "ck_tile/core/arch/mma/sparse/sparse_transforms.hpp"
-#include "ck_tile/core/arch/mma/sparse/sparse_traits.hpp"
 #include "ck_tile/core/arch/mma/sparse/sparse_selector.hpp"
diff --git a/include/ck_tile/core/arch/mma/sparse/sparse_mma_pipeline.hpp b/include/ck_tile/core/arch/mma/sparse/sparse_mma_pipeline.hpp
index b2d5d5fac4..b39cdae770 100644
--- a/include/ck_tile/core/arch/mma/sparse/sparse_mma_pipeline.hpp
+++ b/include/ck_tile/core/arch/mma/sparse/sparse_mma_pipeline.hpp
@@ -12,16 +12,6 @@
 
 namespace ck_tile::core::arch::mma {
 
-namespace sparse::detail {
-// TODO: c++20: return MmaPipelineOptionFlags directly
-template <bool SwapAB>
-constexpr inline int getPipelineFlags()
-{
-    return static_cast<int>(MmaPipelineOptionFlag::COMPRESS_A) |
-           static_cast<int>(SwapAB ? MmaPipelineOptionFlag::ABSwap : MmaPipelineOptionFlag::NONE);
-}
-} // namespace sparse::detail
-
 /**
  * @class SparseMmaPipeline
  * @brief Driver for the wave-tile sparse Mma operation. Given a backend MmaOp implementation
@@ -38,7 +28,7 @@ constexpr inline int getPipelineFlags()
  * @tparam WaveTileN       Mma WaveTile N dimension
  * @tparam WaveTileK       Mma WaveTile K dimension
  * @tparam AccumPolicy     The fragment order of the accum. registers (row or col major frag order)
- * @tparam CTranspose      Swaps A and B input vectors and interprets C with transposed layout.
+ * @tparam CTranspose_     Swaps A and B input vectors and interprets C with transposed layout.
  * @tparam SwizzleFactor   SwizzleFactor for Tile Distribution Encoding calculation.
  * @tparam AttrNumAccessAV Extra unmerge factor for vector dimension for A vec, see amdgcn_mma.hpp.
  * @tparam AttrNumAccessBV Extra unmerge factor for vector dimension for B vec, see amdgcn_mma.hpp.
@@ -53,7 +43,7 @@ template <typename ADataType_,
           uint32_t WaveTileN,
           uint32_t WaveTileK,
           MmaAccumPolicy AccumPolicy = MmaAccumPolicy::ROW_MAJOR,
-          bool CTranspose            = false,
+          bool CTranspose_           = false,
           index_t SwizzleFactor      = 1,
           index_t AttrNumAccessAV    = 1,
           index_t AttrNumAccessBV    = AttrNumAccessAV,
@@ -73,11 +63,12 @@ template <typename ADataType_,
           typename MmaTransforms = // TODO: c++20 MmaTransformsI MmaTransforms =
           typename MmaTransformsDefaultSelector<MmaOp_, CompilerTarget>::SelectedTransforms>
 // clang-format off
-struct SparseMmaPipeline : public MmaPipelineBase<sparse::detail::getPipelineFlags<CTranspose>(), SparseMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>
+struct SparseMmaPipeline : public MmaPipelineBase<SparseMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose_, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>
 {
-    using Base = MmaPipelineBase<sparse::detail::getPipelineFlags<CTranspose>(), SparseMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>;
+    using Base = MmaPipelineBase<SparseMmaPipeline<ADataType_, BDataType_, CDataType_, WaveTileM, WaveTileN, WaveTileK, AccumPolicy, CTranspose_, SwizzleFactor, AttrNumAccessAV, AttrNumAccessBV, CompilerTarget, MmaOp_, MmaTransforms>>;
     // clang-format on
-    using MmaOp = MmaOp_;
+    using MmaOp                      = MmaOp_;
+    static constexpr bool CTranspose = CTranspose_;
 
     using ADataType = typename MmaOp::ADataType;
     using BDataType = typename MmaOp::BDataType;
@@ -86,8 +77,7 @@ struct SparseMmaPipeline : public MmaPipelineBase<sparse::detail::getPipelineFla
     static_assert(!MmaOpTraits<MmaOp>::IsSupported || std::is_same_v<ADataType, ADataType_>);
     static_assert(!MmaOpTraits<MmaOp>::IsSupported || std::is_same_v<BDataType, BDataType_>);
     static_assert(!MmaOpTraits<MmaOp>::IsSupported || std::is_same_v<CDataType, CDataType_>);
-    static_assert(!(Base::Flags & MmaPipelineOptionFlag::ABSwap),
-                  "Cannot transpose C in sparse intrinsics.");
+    static_assert(!CTranspose, "Cannot transpose C in sparse intrinsics.");
 
     // WaveTile dimensions (Used to be fragment dims but higher level expects these to include k
     // iteration!)
@@ -180,7 +170,7 @@ struct SparseMmaPipeline : public MmaPipelineBase<sparse::detail::getPipelineFla
 
     // ATransformResult is a big ext_vector plus idx, B and C are static_distributed tensors. Fix
     // later TODO.
-    template <typename ATransformResult, typename BTensor, typename CTensor>
+    template <typename... Params, typename ATransformResult, typename BTensor, typename CTensor>
     CK_TILE_DEVICE static void execImpl(ATransformResult& a, BTensor& b, CTensor& c)
     {
         static_assert(
@@ -206,7 +196,7 @@ struct SparseMmaPipeline : public MmaPipelineBase<sparse::detail::getPipelineFla
                 {
                     for(uint32_t bk = 0u; bk < FragsK; ++bk)
                     {
-                        c_buf.at(bm * FragsN + bn) = MmaOp::exec(
+                        c_buf.at(bm * FragsN + bn) = MmaOp::template exec<Params...>(
                             a_frags[bm][bk],
                             b_buf.at(bn * FragsK + bk),
                             c_buf.at(bm * FragsN + bn),
@@ -224,7 +214,7 @@ struct SparseMmaPipeline : public MmaPipelineBase<sparse::detail::getPipelineFla
                 {
                     for(uint32_t bk = 0u; bk < FragsK; ++bk)
                     {
-                        c_buf.at(bm * FragsN + bn) = MmaOp::exec(
+                        c_buf.at(bm * FragsN + bn) = MmaOp::template exec<Params...>(
                             a_frags[bm][bk],
                             b_buf.at(bn * FragsK + bk),
                             c_buf.at(bm * FragsN + bn),
diff --git a/include/ck_tile/core/arch/mma/sparse/sparse_traits.hpp b/include/ck_tile/core/arch/mma/sparse/sparse_traits.hpp
deleted file mode 100644
index f5132b89db..0000000000
--- a/include/ck_tile/core/arch/mma/sparse/sparse_traits.hpp
+++ /dev/null
@@ -1,106 +0,0 @@
-// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
-// SPDX-License-Identifier: MIT
-
-#pragma once
-
-#include "ck_tile/core/config.hpp"
-
-#include <stdio.h>
-#if CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
-#include <concepts>
-#endif
-
-namespace ck_tile::core::arch::mma {
-
-/**
- * @enum SparseCompressionIndex
- * @brief Indicates which set of sparse-indices within a VGPR starting at srcC
- * containing 8-bits (for 16-bit source data) or 16-bits (for 8-bit source data)
- * of index information for a lane. \see DefaultSparseMfmaCtrlFlags
- */
-enum struct SparseCompressionIndex : int
-{
-    FIRST  = 0, // Uses bits  [7:0] or [15..0], for 16 and 8 bit data respectively
-    SECOND = 1, // Uses bits [15:8] or [31:16], for 16 and 8 bit data respectively
-    THIRD  = 2, // Uses bits [23:16]
-    FOURTH = 3, // Uses bits [31:24]
-};
-
-// to_string methods for enum classes
-CK_TILE_HOST_DEVICE constexpr const char* to_string(SparseCompressionIndex compressionIndex)
-{
-    switch(compressionIndex)
-    {
-    case SparseCompressionIndex::FIRST: return "FIRST";
-    case SparseCompressionIndex::SECOND: return "SECOND";
-    case SparseCompressionIndex::THIRD: return "THIRD";
-    case SparseCompressionIndex::FOURTH: return "FOURTH";
-    }
-    __builtin_unreachable();
-}
-
-namespace sparse::detail {
-
-/**
- * @struct BuiltinParams
- * @brief Translates the SparseCompressionIndex to the correct CBSZ and ABID pairs for sparse
- * builtins. The actual behavior of the builtin depends on the input data type: 16-bit source data:
- * If CBSZ=0, ABID selects one of four 8-bit sets of sparse-indices within a VGPR starting at srcC
- * containing 8-bits of index information for a lane. If CBSZ!=0 the very first is selected
- * (VGPR[srcC][7..0]).
- *
- * 8-bit source data:
- * If CBSZ=0, ABID selects one of two 16-bit sets of sparse-indices within a VGPR starting at srcC
- * containing 16-bits of index information for a lane. If CBSZ!=0; the very first is selected
- * (VGPR[srcC][15..0]).
- */
-struct BuiltinParams
-{
-    int UseFirstIndex;       // CBSZ
-    int ByteIndexToOverride; // ABID
-};
-
-template <SparseCompressionIndex Idx>
-static constexpr BuiltinParams getBuiltinParams()
-{
-    // TODO c++20: designated initializers
-    if constexpr(Idx == SparseCompressionIndex::FIRST)
-    {
-        return BuiltinParams{1, 0};
-    }
-    else
-    {
-        return BuiltinParams{0, static_cast<int>(Idx)};
-    }
-}
-
-} // namespace sparse::detail
-
-/**
- * @struct DefaultSparseMfmaCtrlFlags
- * @brief Default MFMA sparse flags, select (VGPR[srcC][7..0]) if srcC is
- * 16-bit or (VGPR[srcC][15..0]) if srcC is 8-bit.
- */
-struct DefaultSparseMfmaCtrlFlags
-{
-    static constexpr SparseCompressionIndex CompressionIndex = SparseCompressionIndex::FIRST;
-};
-
-CK_TILE_HOST_DEVICE void print_flags(DefaultSparseMfmaCtrlFlags const& ctrlFlags)
-{
-    printf("CtrlFlags      CompressionIndex         : %s\n", to_string(ctrlFlags.CompressionIndex));
-}
-
-#if CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
-/**
- * @concept SparseMfmaCtrlFlags
- * @brief Expresses the interface of required members for each CtrlFlags type
- */
-template <typename CtrlFlags>
-concept SparseMfmaCtrlFlags = requires(CtrlFlags ctrlFlags) {
-    // Flag members for sparse MFMA instructions
-    { CtrlFlags::CompressionIndex } -> std::convertible_to<SparseCompressionIndex>;
-};
-#endif // CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
-
-} // namespace ck_tile::core::arch::mma
diff --git a/include/ck_tile/core/arch/mma/sparse/wmma/selector.hpp b/include/ck_tile/core/arch/mma/sparse/wmma/selector.hpp
index 1829741d37..87d46bd98f 100644
--- a/include/ck_tile/core/arch/mma/sparse/wmma/selector.hpp
+++ b/include/ck_tile/core/arch/mma/sparse/wmma/selector.hpp
@@ -53,7 +53,6 @@ struct MmaDefaultSelector<ADataType,
                                                    WaveTileM,
                                                    WaveTileN,
                                                    WaveTileK,
-                                                   DefaultWmmaCtrlFlags,
                                                    CompilerTarget,
                                                    MmaOpFamily::SPARSE>::SelectedOp;
 };
diff --git a/include/ck_tile/core/arch/mma/sparse/wmma/sparse_gfx12.hpp b/include/ck_tile/core/arch/mma/sparse/wmma/sparse_gfx12.hpp
index 2257cf7db8..1418bc909c 100644
--- a/include/ck_tile/core/arch/mma/sparse/wmma/sparse_gfx12.hpp
+++ b/include/ck_tile/core/arch/mma/sparse/wmma/sparse_gfx12.hpp
@@ -11,6 +11,7 @@
 #include "ck_tile/core/numeric/half.hpp"
 #include "ck_tile/core/numeric/integer.hpp"
 #include "ck_tile/core/numeric/vector_type.hpp"
+#include "ck_tile/ops/gemm/warp/warp_gemm_params.hpp"
 
 namespace ck_tile::core::arch::mma {
 
@@ -18,20 +19,20 @@ namespace ck_tile::core::arch::mma {
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsSparseWmmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, 32u, 16, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_swmmac_f32_16x16x32_f16_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
@@ -43,20 +44,20 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, 32u, 16, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_swmmac_f32_16x16x32_bf16_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
@@ -68,20 +69,20 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp16_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp16_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp16_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp16_t, 16u, 16u, 32u, 32u, 16, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_swmmac_f16_16x16x32_f16_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
@@ -93,21 +94,21 @@ struct amdgcn_mma<fp16_t, fp16_t, fp16_t, 16u, 16u, 32u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, bf16_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, bf16_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<bf16_t, bf16_t, bf16_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<bf16_t, bf16_t, bf16_t, 16u, 16u, 32u, 32u, 16, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_swmmac_bf16_16x16x32_bf16_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
@@ -119,30 +120,31 @@ struct amdgcn_mma<bf16_t, bf16_t, bf16_t, 16u, 16u, 32u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 16u, 16u, 32u, 32u, 16, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_swmmac_i32_16x16x32_iu8_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_swmmac_i32_16x16x32_iu8_w32(true, // A signedness
                                                              aVec,
                                                              true, // B signedness
                                                              bVec,
                                                              cVec,
                                                              idx,
-                                                             CtrlFlags::Clamp)};
+                                                             P::clamp)};
     }
 };
 
@@ -150,21 +152,21 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 32u, CtrlFlags, CompilerTar
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, fp8_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<fp8_t, fp8_t, fp32_t, 16u, 16u, 32u, 32u, 16, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_swmmac_f32_16x16x32_fp8_fp8_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
@@ -176,21 +178,21 @@ struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, bf8_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<fp8_t, bf8_t, fp32_t, 16u, 16u, 32u, 32u, 16, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_swmmac_f32_16x16x32_fp8_bf8_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
@@ -202,21 +204,21 @@ struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, fp8_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<bf8_t, fp8_t, fp32_t, 16u, 16u, 32u, 32u, 16, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_swmmac_f32_16x16x32_bf8_fp8_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
@@ -228,21 +230,21 @@ struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, bf8_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<bf8_t, bf8_t, fp32_t, 16u, 16u, 32u, 32u, 16, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_swmmac_f32_16x16x32_bf8_bf8_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
@@ -250,51 +252,55 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget
     }
 };
 
-// TODO: c++20 template <CtrlFlagsSparseWmmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes             | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 32u, 32u, 16, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_swmmac_i32_16x16x32_iu4_w32";
 
-    CK_TILE_DEVICE static auto
-    exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx) -> CVecType
+    template <typename... Params>
+    CK_TILE_DEVICE static CVecType
+    exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_swmmac_i32_16x16x32_iu4_w32(true, // A signedness
                                                              bit_cast<int32_t>(aVec),
                                                              true, // B signedness
                                                              bit_cast<int32x2_t>(bVec),
                                                              cVec,
                                                              idx,
-                                                             CtrlFlags::Clamp)};
+                                                             P::clamp)};
     }
 };
 
-// TODO: c++20 template <CtrlFlagsSparseWmmaI CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes             | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 64u, CtrlFlags, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 64u, CompilerTarget, MmaOpFamily::SPARSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 64u, 32u, 32, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::SPARSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_swmmac_i32_16x16x64_iu4_w32";
 
-    CK_TILE_DEVICE static auto
-    exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx) -> CVecType
+    template <typename... Params>
+    CK_TILE_DEVICE static CVecType
+    exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec, int32_t idx)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_swmmac_i32_16x16x64_iu4_w32(true, // A signedness
                                                              bit_cast<int32x2_t>(aVec),
                                                              true, // B signedness
                                                              bit_cast<int32x4_t>(bVec),
                                                              cVec,
                                                              idx,
-                                                             CtrlFlags::Clamp)};
+                                                             P::clamp)};
     }
 };
 
diff --git a/include/ck_tile/core/arch/mma/wmma/wmma_gfx11.hpp b/include/ck_tile/core/arch/mma/wmma/wmma_gfx11.hpp
index ec89e26ebc..2c4767fde1 100644
--- a/include/ck_tile/core/arch/mma/wmma/wmma_gfx11.hpp
+++ b/include/ck_tile/core/arch/mma/wmma/wmma_gfx11.hpp
@@ -16,6 +16,7 @@
 #include "ck_tile/core/numeric/integer.hpp"
 #include "ck_tile/core/numeric/vector_type.hpp"
 #include "ck_tile/core/utility/bit_cast.hpp"
+#include "ck_tile/ops/gemm/warp/warp_gemm_params.hpp"
 
 namespace ck_tile::core::arch::mma {
 // TODO: Specifically for gfx11 wmma, we need to deal with quirks such as:
@@ -46,20 +47,20 @@ namespace ck_tile::core::arch::mma {
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX11
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx11I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx11_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx11_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, 32u, 16, 1, 2, 1, 2, 8, 8, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_wmma_f32_16x16x16_f16_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
@@ -71,20 +72,20 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX11
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx11I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx11_t<CompilerTarget>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx11_t<CompilerTarget>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, 32u, 16, 1, 2, 1, 2, 8, 8, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_wmma_f32_16x16x16_bf16_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
@@ -96,29 +97,30 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX11
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx11I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx11_t<CompilerTarget>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx11_t<CompilerTarget>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 16u, 16u, 16u, 32u, 16, 1, 2, 1, 2, 8, 8, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_wmma_i32_16x16x16_iu8_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_wmma_i32_16x16x16_iu8_w32(true, // A signedness
                                                            bit_cast<int32x4_t>(aVec),
                                                            true, // B signedness
                                                            bit_cast<int32x4_t>(bVec),
                                                            cVec,
-                                                           CtrlFlags::Clamp)};
+                                                           P::clamp)};
     }
 };
 
@@ -126,29 +128,30 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 16u, CtrlFlags, CompilerTar
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for pk_int4_t, pk_int4_t, int32_t MMA operation on GFX11
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx11I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes             | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx11_t<CompilerTarget>>
+struct amdgcn_mma<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx11_t<CompilerTarget>>
 : amdgcn_mma_base<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 16u, 32u, 16, 1, 2, 1, 2, 8, 8, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name = "__builtin_amdgcn_wmma_i32_16x16x16_iu4_w32";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_wmma_i32_16x16x16_iu4_w32(true, // A signedness
                                                            bit_cast<int32x2_t>(aVec),
                                                            true, // B signedness
                                                            bit_cast<int32x2_t>(bVec),
                                                            cVec,
-                                                           CtrlFlags::Clamp)};
+                                                           P::clamp)};
     }
 };
 
diff --git a/include/ck_tile/core/arch/mma/wmma/wmma_gfx12.hpp b/include/ck_tile/core/arch/mma/wmma/wmma_gfx12.hpp
index 92057b1446..9146d6e250 100644
--- a/include/ck_tile/core/arch/mma/wmma/wmma_gfx12.hpp
+++ b/include/ck_tile/core/arch/mma/wmma/wmma_gfx12.hpp
@@ -17,6 +17,7 @@
 #include "ck_tile/core/numeric/integer.hpp"
 #include "ck_tile/core/numeric/vector_type.hpp"
 #include "ck_tile/core/utility/bit_cast.hpp"
+#include "ck_tile/ops/gemm/warp/warp_gemm_params.hpp"
 
 namespace ck_tile::core::arch::mma {
 
@@ -31,21 +32,21 @@ namespace ck_tile::core::arch::mma {
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, 32u, 8, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_wmma_f32_16x16x16_f16_w32_gfx12";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
@@ -57,21 +58,21 @@ struct amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, 32u, 8, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_wmma_f32_16x16x16_bf16_w32_gfx12";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
@@ -83,21 +84,21 @@ struct amdgcn_mma<bf16_t, bf16_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp16_t, fp16_t, fp16_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp16_t, fp16_t, fp16_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<fp16_t, fp16_t, fp16_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<fp16_t, fp16_t, fp16_t, 16u, 16u, 16u, 32u, 8, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_wmma_f16_16x16x16_f16_w32_gfx12";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
@@ -109,21 +110,21 @@ struct amdgcn_mma<fp16_t, fp16_t, fp16_t, 16u, 16u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf16_t, bf16_t, bf16_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf16_t, bf16_t, bf16_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<bf16_t, bf16_t, bf16_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<bf16_t, bf16_t, bf16_t, 16u, 16u, 16u, 32u, 8, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_wmma_bf16_16x16x16_bf16_w32_gfx12";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
@@ -135,30 +136,31 @@ struct amdgcn_mma<bf16_t, bf16_t, bf16_t, 16u, 16u, 16u, CtrlFlags, CompilerTarg
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for int8_t, int8_t, int32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes       | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<int8_t, int8_t, int32_t, 16u, 16u, 16u, 32u, 8, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_wmma_i32_16x16x16_iu8_w32_gfx12";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_wmma_i32_16x16x16_iu8_w32_gfx12(true, // A signedness
                                                                  bit_cast<int32x2_t>(aVec),
                                                                  true, // B signedness
                                                                  bit_cast<int32x2_t>(bVec),
                                                                  cVec,
-                                                                 CtrlFlags::Clamp)};
+                                                                 P::clamp)};
     }
 };
 
@@ -166,21 +168,21 @@ struct amdgcn_mma<int8_t, int8_t, int32_t, 16u, 16u, 16u, CtrlFlags, CompilerTar
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, fp8_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<fp8_t, fp8_t, fp32_t, 16u, 16u, 16u, 32u, 8, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_wmma_f32_16x16x16_fp8_fp8_w32_gfx12";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
@@ -193,21 +195,21 @@ struct amdgcn_mma<fp8_t, fp8_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for fp8_t, bf8_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<fp8_t, bf8_t, fp32_t, 16u, 16u, 16u, 32u, 8, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_wmma_f32_16x16x16_fp8_bf8_w32_gfx12";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
@@ -220,21 +222,21 @@ struct amdgcn_mma<fp8_t, bf8_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, fp8_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<bf8_t, fp8_t, fp32_t, 16u, 16u, 16u, 32u, 8, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_wmma_f32_16x16x16_bf8_fp8_w32_gfx12";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
@@ -247,21 +249,21 @@ struct amdgcn_mma<bf8_t, fp8_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for bf8_t, bf8_t, fp32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes    | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<bf8_t, bf8_t, fp32_t, 16u, 16u, 16u, 32u, 8, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_wmma_f32_16x16x16_bf8_bf8_w32_gfx12";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
@@ -274,30 +276,31 @@ struct amdgcn_mma<bf8_t, bf8_t, fp32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_mma for pk_int4_t, pk_int4_t, int32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes             | MNK + WaveSize    |AParams |BPar |CPar |
-struct amdgcn_mma<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 16u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 16u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 16u, 32u, 8, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_wmma_i32_16x16x16_iu4_w32_gfx12";
 
+    template <typename... Params>
     CK_TILE_DEVICE static CVecType
     exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_wmma_i32_16x16x16_iu4_w32_gfx12(true, // A signedness
                                                                  bit_cast<int32_t>(aVec),
                                                                  true, // B signedness
                                                                  bit_cast<int32_t>(bVec),
                                                                  cVec,
-                                                                 CtrlFlags::Clamp)};
+                                                                 P::clamp)};
     }
 };
 
@@ -305,30 +308,31 @@ struct amdgcn_mma<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 16u, CtrlFlags, Compi
  * @struct amdgcn_mma
  * @brief Specialization of amdgcn_wmma for pk_int4_t, pk_int4_t, int32_t MMA operation on GFX12
  * architecture.
- * @tparam CtrlFlags Control flags for the WMMA operation
  * @tparam CompilerTarget Current compiler target
  */
-// TODO: c++20 template <CtrlFlagsGfx12I CtrlFlags, amdgcn_target CompilerTarget>
+// TODO: c++20 template <amdgcn_target CompilerTarget>
 // TODO: c++20 requires
-template <typename CtrlFlags, typename CompilerTarget>
+template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes             | MNK + WaveSize    |AParams  |BPar |CPar |
-struct amdgcn_mma<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 32u, CtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
+struct amdgcn_mma<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 32u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_family_gfx12_t<CompilerTarget>>
 : amdgcn_mma_base<pk_int4_t, pk_int4_t, int32_t, 16u, 16u, 32u, 32u, 16, 1, 1, 1, 1, 8, 1, WmmaOp, MmaOpFamily::DENSE>
 // clang-format on
 {
     static constexpr const char* instruction_name =
         "__builtin_amdgcn_wmma_i32_16x16x32_iu4_w32_gfx12";
 
-    CK_TILE_DEVICE static auto
-    exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec) -> CVecType
+    template <typename... Params>
+    CK_TILE_DEVICE static CVecType
+    exec(AVecType const& aVec, BVecType const& bVec, CVecType const& cVec)
     {
+        using P = WarpGemmParamsParser<Params...>;
         return {__builtin_amdgcn_wmma_i32_16x16x32_iu4_w32_gfx12(true, // A signedness
                                                                  bit_cast<int32x2_t>(aVec),
                                                                  true, // B signedness
                                                                  bit_cast<int32x2_t>(bVec),
                                                                  cVec,
-                                                                 CtrlFlags::Clamp)};
+                                                                 P::clamp)};
     }
 };
 
diff --git a/include/ck_tile/core/arch/mma/wmma/wmma_selector.hpp b/include/ck_tile/core/arch/mma/wmma/wmma_selector.hpp
index 2f75d68d46..645fdc81e6 100644
--- a/include/ck_tile/core/arch/mma/wmma/wmma_selector.hpp
+++ b/include/ck_tile/core/arch/mma/wmma/wmma_selector.hpp
@@ -52,7 +52,6 @@ struct MmaDefaultSelector<ADataType,
                                                    WaveTileM,
                                                    WaveTileN,
                                                    WaveTileK,
-                                                   DefaultWmmaCtrlFlags,
                                                    CompilerTarget,
                                                    MmaOpFamily::DENSE>::SelectedOp;
 };
diff --git a/include/ck_tile/core/arch/mma/wmma/wmma_traits.hpp b/include/ck_tile/core/arch/mma/wmma/wmma_traits.hpp
index 1c7c3e9276..59375da04f 100644
--- a/include/ck_tile/core/arch/mma/wmma/wmma_traits.hpp
+++ b/include/ck_tile/core/arch/mma/wmma/wmma_traits.hpp
@@ -4,8 +4,6 @@
 #pragma once
 
 #include "ck_tile/core/config.hpp"
-
-#include <stdio.h>
 #include <type_traits>
 
 namespace ck_tile::core::arch::mma {
@@ -50,25 +48,4 @@ struct is_mma_op_wmma<MmaOp, std::enable_if_t<std::is_same_v<typename MmaOp::OpT
 template <typename MmaOp>
 static constexpr bool is_mma_op_wmma_v = is_mma_op_wmma<MmaOp>::value;
 
-/**
- * @struct DefaultWmmaCtrlFlags
- * @brief Default WMMA control flags for dense and sparse WMMA operations.
- */
-struct DefaultWmmaCtrlFlags
-{
-    constexpr static bool Clamp = false;
-
-    // Only has an effect on gfx11 when the accumulator is 16-bit.
-    // Determines which half of the 32-bit accum register to use for the 16-bit result.
-    // false = low bits [15:0], true = high bits [31:16]
-    constexpr static bool UseHighAccumBits = true;
-};
-
-CK_TILE_HOST_DEVICE void print_flags(DefaultWmmaCtrlFlags const& ctrlFlags)
-{
-    printf("CtrlFlags      Clamp / UseHighAccumBits : %d / %d\n",
-           ctrlFlags.Clamp,
-           ctrlFlags.UseHighAccumBits);
-}
-
 } // namespace ck_tile::core::arch::mma
diff --git a/include/ck_tile/core/arch/mma/wmma/wmma_transforms.hpp b/include/ck_tile/core/arch/mma/wmma/wmma_transforms.hpp
index fd9cd69813..7a04fb4633 100644
--- a/include/ck_tile/core/arch/mma/wmma/wmma_transforms.hpp
+++ b/include/ck_tile/core/arch/mma/wmma/wmma_transforms.hpp
@@ -9,21 +9,6 @@
 
 namespace ck_tile::core::arch::mma {
 
-/**
- * @struct DuplicateTransform
- * @brief Transform to duplicate low register elements to high register elements
- */
-struct DuplicateTransform
-{
-    template <typename VecType>
-    CK_TILE_DEVICE static decltype(auto) exec(VecType&& v)
-    {
-        // TODO: Implement duplication logic to broadcast low
-        // register elements to high elements [0 - (N/2 -1)] -> [N/2 - (N-1)]
-        return std::forward<VecType>(v);
-    }
-};
-
 /**
  * @struct PadTransform
  * @brief Transform to pad data from original type to b32 type
@@ -59,8 +44,8 @@ struct UnpadTransform
  */
 struct MmaDefaultTransformsGfx11
 {
-    using ATransform = DuplicateTransform;
-    using BTransform = DuplicateTransform;
+    using ATransform = PassThroughTransform;
+    using BTransform = PassThroughTransform;
     using CTransform = PadTransform;
     using DTransform = UnpadTransform;
 };
diff --git a/include/ck_tile/ops/gemm/warp/warp_gemm_params.hpp b/include/ck_tile/ops/gemm/warp/warp_gemm_params.hpp
index ace20b923e..359b5bbca9 100644
--- a/include/ck_tile/ops/gemm/warp/warp_gemm_params.hpp
+++ b/include/ck_tile/ops/gemm/warp/warp_gemm_params.hpp
@@ -83,6 +83,21 @@ struct SwapReuse_ : bool_constant<Value>
 {
 };
 
+template <index_t Value>
+struct Cbsz : number<Value>
+{
+};
+
+template <index_t Value>
+struct Abid : number<Value>
+{
+};
+
+template <index_t Value>
+struct Blgp : number<Value>
+{
+};
+
 struct WarpGemmDefaultParams
 {
     using clamp      = bool_constant<false>;
@@ -94,6 +109,9 @@ struct WarpGemmDefaultParams
     using swap_reuse = bool_constant<false>; // internal use only
     using scale_a    = number<0>;
     using scale_b    = number<0>;
+    using cbsz       = number<0>;
+    using abid       = number<0>;
+    using blgp       = number<0>;
 };
 
 template <typename T, template <index_t> class Tag>
@@ -151,6 +169,9 @@ class WarpGemmParamsParser
     public:
     static constexpr bool clamp       = extract<Clamp, WarpGemmDefaultParams::clamp>();
     static constexpr bool post_nop    = extract<PostNop, WarpGemmDefaultParams::post_nop>();
+    static constexpr index_t cbsz     = extract<Cbsz, WarpGemmDefaultParams::cbsz>();
+    static constexpr index_t abid     = extract<Abid, WarpGemmDefaultParams::abid>();
+    static constexpr index_t blgp     = extract<Blgp, WarpGemmDefaultParams::blgp>();
     static constexpr bool reuse_a     = swap_reuse ? raw_reuse_b : raw_reuse_a;
     static constexpr bool reuse_b     = swap_reuse ? raw_reuse_a : raw_reuse_b;
     static constexpr index_t op_sel_a = swap_reuse ? raw_op_sel_b : raw_op_sel_a;
diff --git a/test/ck_tile/core/arch/mma/CMakeLists.txt b/test/ck_tile/core/arch/mma/CMakeLists.txt
index 1a62205490..727098269b 100644
--- a/test/ck_tile/core/arch/mma/CMakeLists.txt
+++ b/test/ck_tile/core/arch/mma/CMakeLists.txt
@@ -87,6 +87,3 @@ if(GPU_TARGETS MATCHES "gfx120")
     target_compile_options(test_amdgcn_mma_layout_gfx12 PRIVATE ${EXAMPLE_GEMM_COMPILE_OPTIONS})
 endif()
 
-_add_mma_gtest(test_amdgcn_mma_pipeline pipeline/test_amdgcn_mma_pipeline.cpp)
-target_compile_options(test_amdgcn_mma_pipeline PRIVATE ${EXAMPLE_GEMM_COMPILE_OPTIONS})
-
diff --git a/test/ck_tile/core/arch/mma/pipeline/test_amdgcn_mma_pipeline.cpp b/test/ck_tile/core/arch/mma/pipeline/test_amdgcn_mma_pipeline.cpp
deleted file mode 100644
index cc6cee9b3e..0000000000
--- a/test/ck_tile/core/arch/mma/pipeline/test_amdgcn_mma_pipeline.cpp
+++ /dev/null
@@ -1,66 +0,0 @@
-// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
-// SPDX-License-Identifier: MIT
-
-#include <cstdint>
-#include <gtest/gtest.h>
-#include <iostream>
-#include <numeric>
-
-#include "ck_tile/core/arch/arch.hpp"
-#include "ck_tile/core/arch/mma/mma_pipeline.hpp"
-
-namespace {
-using namespace ck_tile::core::arch::mma;
-}
-
-TEST(MmaPipelineOptionFlagsTests, ConversionTests)
-{
-    MmaPipelineOptionFlags flags_0{};
-    MmaPipelineOptionFlags flags_1{MmaPipelineOptionFlag::ABSwap};
-    MmaPipelineOptionFlags flags_2{MmaPipelineOptionFlag::COMPRESS_A};
-    MmaPipelineOptionFlags flags_3{0b11}; // TODO c++20 - remove this
-
-    EXPECT_TRUE(flags_0.testFlag(MmaPipelineOptionFlag::NONE));
-    EXPECT_FALSE(flags_0.testFlag(MmaPipelineOptionFlag::ABSwap));
-    EXPECT_FALSE(flags_0.testFlag(MmaPipelineOptionFlag::COMPRESS_A));
-
-    EXPECT_TRUE(flags_1.testFlag(MmaPipelineOptionFlag::ABSwap));
-    EXPECT_FALSE(flags_1.testFlag(MmaPipelineOptionFlag::NONE));
-    EXPECT_FALSE(flags_1.testFlag(MmaPipelineOptionFlag::COMPRESS_A));
-
-    EXPECT_TRUE(flags_2.testFlag(MmaPipelineOptionFlag::COMPRESS_A));
-    EXPECT_FALSE(flags_2.testFlag(MmaPipelineOptionFlag::NONE));
-    EXPECT_FALSE(flags_2.testFlag(MmaPipelineOptionFlag::ABSwap));
-
-    EXPECT_TRUE(flags_3.testFlag(MmaPipelineOptionFlag::COMPRESS_A));
-    EXPECT_TRUE(flags_3.testFlag(MmaPipelineOptionFlag::ABSwap));
-    EXPECT_FALSE(flags_3.testFlag(MmaPipelineOptionFlag::NONE));
-}
-
-TEST(MmaPipelineOptionFlagsTests, OperatorsTests)
-{
-    MmaPipelineOptionFlags flags{};
-
-    EXPECT_TRUE(flags.testFlag(MmaPipelineOptionFlag::NONE));
-
-    flags |= MmaPipelineOptionFlag::ABSwap;
-
-    EXPECT_FALSE(flags.testFlag(MmaPipelineOptionFlag::NONE));
-    EXPECT_TRUE(flags.testFlag(MmaPipelineOptionFlag::ABSwap));
-
-    flags |= MmaPipelineOptionFlag::COMPRESS_A;
-
-    EXPECT_FALSE(flags.testFlag(MmaPipelineOptionFlag::NONE));
-    EXPECT_TRUE(flags.testFlag(MmaPipelineOptionFlag::ABSwap));
-    EXPECT_TRUE(flags.testFlag(MmaPipelineOptionFlag::COMPRESS_A));
-
-    flags &= MmaPipelineOptionFlag::COMPRESS_A;
-
-    EXPECT_FALSE(flags.testFlag(MmaPipelineOptionFlag::NONE));
-    EXPECT_FALSE(flags.testFlag(MmaPipelineOptionFlag::ABSwap));
-    EXPECT_TRUE(flags.testFlag(MmaPipelineOptionFlag::COMPRESS_A));
-
-    EXPECT_FALSE((~flags).testFlag(MmaPipelineOptionFlag::NONE));
-    EXPECT_TRUE((~flags).testFlag(MmaPipelineOptionFlag::ABSwap));
-    EXPECT_FALSE((~flags).testFlag(MmaPipelineOptionFlag::COMPRESS_A));
-}
diff --git a/test/ck_tile/core/arch/mma/pipeline/test_amdgcn_scale_mma.cpp b/test/ck_tile/core/arch/mma/pipeline/test_amdgcn_scale_mma.cpp
index e424b10d34..864997d5f1 100644
--- a/test/ck_tile/core/arch/mma/pipeline/test_amdgcn_scale_mma.cpp
+++ b/test/ck_tile/core/arch/mma/pipeline/test_amdgcn_scale_mma.cpp
@@ -40,7 +40,6 @@ void ScaleMfmaGfx950Specialization_impl()
                                     WaveTileM,
                                     WaveTileN,
                                     WaveTileK,
-                                    DefaultScaleMfmaCtrlFlags,
                                     CompilerTargetGfx950,
                                     MmaOpFamily::SCALE>;
 
@@ -79,10 +78,7 @@ TEST(ScaleMMATrait, ScaleMfmaGfx950Specialization)
     std::cout << "GFX950 scale MFMA specialization is correct" << std::endl;
 }
 
-// TODO: It seems like the ExecSignature concept (and hence MmaOpI) can not be made to work for a
-// templated device function for some reason. Disable test for now and fix this once we are using
-// the variadic template pack for flags...
-#if CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER && 0
+#if CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
 template <typename AType,
           typename BType,
           typename CType,
@@ -97,7 +93,6 @@ void TestConceptRequirements_impl()
                                     WaveTileM,
                                     WaveTileN,
                                     WaveTileK,
-                                    DefaultScaleMfmaCtrlFlags,
                                     CompilerTargetGfx950,
                                     MmaOpFamily::SCALE>;
 
@@ -107,7 +102,7 @@ void TestConceptRequirements_impl()
 
 TEST(ScaleMMATrait, TestConceptRequirements)
 {
-#if CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER && 0
+#if CK_TILE_CONCEPTS && CK_TILE_CONCEPTS_HEADER
     TestConceptRequirements_impl<fp8_t, fp8_t, fp32_t, 16u, 16u, 128u>();
     TestConceptRequirements_impl<bf8_t, bf8_t, fp32_t, 16u, 16u, 128u>();
     TestConceptRequirements_impl<pk_fp4_t, pk_fp4_t, fp32_t, 16u, 16u, 128u>();
@@ -216,9 +211,7 @@ struct ScalePipelineKernel
             constexpr int32_t replicate_byte = 0x01010101;
             ScaleAType scale_a               = 126u * replicate_byte;
             ScaleBType scale_b               = 129u * replicate_byte;
-            static constexpr index_t opselA  = 0;
-            static constexpr index_t opselB  = 0;
-            Pipeline::template exec<opselA, opselB>(a, b, c, scale_a, scale_b);
+            Pipeline::template exec<OpSelA<0>, OpSelB<0>>(a, b, c, scale_a, scale_b);
             __builtin_memcpy(
                 static_cast<uint8_t*>(c_per_lane) + lane * sizeof(CTensor), &c, sizeof(CTensor));
         }
@@ -399,9 +392,7 @@ TEST(ScaleMMATrait, MmaSelector_Scale_BF8_BF8_F32_32x32x64_Real)
 //             constexpr int32_t replicate_byte = 0x01010101;
 //             ScaleAType scale_a               = 126u * replicate_byte;
 //             ScaleBType scale_b               = 129u * replicate_byte;
-//             static constexpr index_t opselA  = 0;
-//             static constexpr index_t opselB  = 0;
-//             Pipeline::template exec<opselA, opselB>(a, b, c, scale_a, scale_b);
+//             Pipeline::template exec<OpSelA<0>, OpSelB<0>>(a, b, c, scale_a, scale_b);
 //             __builtin_memcpy(
 //                 static_cast<uint8_t*>(c_per_lane) + lane * sizeof(CTensor), &c, sizeof(CTensor));
 //         }
diff --git a/test/ck_tile/core/arch/mma/pipeline/test_amdgcn_sparse_mma.cpp b/test/ck_tile/core/arch/mma/pipeline/test_amdgcn_sparse_mma.cpp
index 5d44d3333b..ff156e8692 100644
--- a/test/ck_tile/core/arch/mma/pipeline/test_amdgcn_sparse_mma.cpp
+++ b/test/ck_tile/core/arch/mma/pipeline/test_amdgcn_sparse_mma.cpp
@@ -39,7 +39,6 @@ TEST(SparseMMATrait, SparseMfmaGfx950Specialization)
                                            16u,
                                            16u,
                                            32u,
-                                           DefaultSparseMfmaCtrlFlags,
                                            CompilerTargetGfx950,
                                            MmaOpFamily::SPARSE>;
 
@@ -60,7 +59,6 @@ TEST(SparseMMATrait, MmaOpTraitsIntegration)
                                       16u,
                                       16u,
                                       32u,
-                                      DefaultSparseMfmaCtrlFlags,
                                       CompilerTargetGfx950,
                                       MmaOpFamily::SPARSE>;
 
@@ -83,7 +81,6 @@ TEST(SparseMMATrait, TestConceptRequirements)
                                       16u,
                                       16u,
                                       32u,
-                                      DefaultSparseMfmaCtrlFlags,
                                       CompilerTargetGfx950,
                                       MmaOpFamily::SPARSE>;
     EXPECT_TRUE(MmaOpI<TestSparseMmma>);
@@ -95,15 +92,8 @@ TEST(SparseMMATrait, TestConceptRequirements)
 TEST(SparseMMATrait, DenseVsSparseDistinction)
 {
     // Dense MFMA from mfma/mfma_gfx9.hpp
-    using DenseMfma = amdgcn_mma<fp16_t,
-                                 fp16_t,
-                                 fp32_t,
-                                 16u,
-                                 16u,
-                                 32u,
-                                 DefaultMfmaCtrlFlags,
-                                 CompilerTargetGfx950,
-                                 MmaOpFamily::DENSE>;
+    using DenseMfma =
+        amdgcn_mma<fp16_t, fp16_t, fp32_t, 16u, 16u, 32u, CompilerTargetGfx950, MmaOpFamily::DENSE>;
 
     // Sparse MFMA on GFX950
     using SparseMfma = amdgcn_mma<fp16_t,
@@ -112,7 +102,6 @@ TEST(SparseMMATrait, DenseVsSparseDistinction)
                                   16u,
                                   16u,
                                   32u,
-                                  DefaultSparseMfmaCtrlFlags,
                                   CompilerTargetGfx950,
                                   MmaOpFamily::SPARSE>;
 
diff --git a/test/ck_tile/core/arch/mma/test_amdgcn_mma.cpp b/test/ck_tile/core/arch/mma/test_amdgcn_mma.cpp
index 8c8109e78d..f15c21bfe6 100644
--- a/test/ck_tile/core/arch/mma/test_amdgcn_mma.cpp
+++ b/test/ck_tile/core/arch/mma/test_amdgcn_mma.cpp
@@ -27,9 +27,6 @@ using namespace ck_tile::core::arch::testing;
 constexpr uint32_t DummyTargetIdVal = 55555u;
 using DummyCompilerTarget = amdgcn_target<static_cast<amdgcn_target_id>(DummyTargetIdVal)>;
 struct DummyOpType;
-struct DummyCtrlFlags
-{
-};
 
 /** @brief Returns true if the given target id matches the dummy */
 constexpr bool is_dummy_target(DummyCompilerTarget dummy)
@@ -49,7 +46,7 @@ using enable_if_target_id_dummy_t = std::enable_if_t<is_dummy_target(CompilerTar
 template <typename CompilerTarget>
 // clang-format off
 //               | A B C DataTypes      | MNK + WaveSize |AParams |BPar |CPar |
-struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 8u, 8u, 8u, DummyCtrlFlags, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_dummy_t<CompilerTarget>>
+struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 8u, 8u, 8u, CompilerTarget, MmaOpFamily::DENSE, enable_if_target_id_dummy_t<CompilerTarget>>
 : amdgcn_mma_base<fp32_t, fp32_t, fp32_t, 8u, 8u, 8u, 64u, 1, 1, 1, 1, 1, 1, 1, DummyOpType, MmaOpFamily::DENSE>
 // clang-format on
 {
@@ -63,15 +60,8 @@ struct amdgcn_mma<fp32_t, fp32_t, fp32_t, 8u, 8u, 8u, DummyCtrlFlags, CompilerTa
 // Have an alias so we can test supported arch vs unsupported arch
 // TODO: c++20 template <amdgcn_target_arch_id CompilerTarget>
 template <typename CompilerTarget>
-using DummyAmdgcnMma = amdgcn_mma<fp32_t,
-                                  fp32_t,
-                                  fp32_t,
-                                  8u,
-                                  8u,
-                                  8u,
-                                  DummyCtrlFlags,
-                                  CompilerTarget,
-                                  MmaOpFamily::DENSE>;
+using DummyAmdgcnMma =
+    amdgcn_mma<fp32_t, fp32_t, fp32_t, 8u, 8u, 8u, CompilerTarget, MmaOpFamily::DENSE>;
 
 /*! @struct MmaDefaultSelector
  * @brief For dummy Id only, instantiate tests for both MFMA and WMMA selectors so we can them both
diff --git a/test/ck_tile/core/arch/mma/test_amdgcn_mma_layout.inc b/test/ck_tile/core/arch/mma/test_amdgcn_mma_layout.inc
index 1a3bc55aaf..7cd471f562 100644
--- a/test/ck_tile/core/arch/mma/test_amdgcn_mma_layout.inc
+++ b/test/ck_tile/core/arch/mma/test_amdgcn_mma_layout.inc
@@ -23,6 +23,7 @@
 #include "ck_tile/host/hip_check_error.hpp"
 #include "ck_tile/host/kernel_launch.hpp"
 #include "ck_tile/host/stream_config.hpp"
+#include "ck_tile/ops/gemm/warp/warp_gemm_params.hpp"
 
 #include <gtest/gtest.h>
 #include <hip/hip_runtime.h>
@@ -256,12 +257,10 @@ struct MmaLayoutTestKernel
             {
                 // The actual scale is computed as pow(2, scale - 127), so:
                 // 125 -> 2^-2 and 129 -> 2^2.
-                int scale_A                     = 125;
-                int scale_B                     = 129;
-                static constexpr index_t opselA = 0;
-                static constexpr index_t opselB = 0;
-                c_frag =
-                    MmaOp::template exec<opselA, opselB>(a_frag, b_frag, c_frag, scale_A, scale_B);
+                int scale_A = 125;
+                int scale_B = 129;
+                c_frag      = MmaOp::template exec<OpSelA<0>, OpSelB<0>>(
+                    a_frag, b_frag, c_frag, scale_A, scale_B);
             }
             else
             {
@@ -357,145 +356,145 @@ void run_mma_layout_test()
 
 // available on all gfx9 (gfx908, gfx90a, gfx942, gfx950)
 using Gfx9CommonIntrinsics = ::testing::Types<
-    amdgcn_mma<F32,  F32,  F32,  32u, 64u, 1u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x1f32
-    amdgcn_mma<F32,  F32,  F32,  64u, 32u, 1u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x1f32
-    amdgcn_mma<F32,  F32,  F32,  16u, 64u, 1u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x1f32
-    amdgcn_mma<F32,  F32,  F32,  64u, 16u, 1u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x1f32
-    amdgcn_mma<F32,  F32,  F32,  4u,  64u, 1u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x1f32
-    amdgcn_mma<F32,  F32,  F32,  64u, 4u,  1u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x1f32
-    amdgcn_mma<F32,  F32,  F32,  32u, 32u, 2u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x2f32
-    amdgcn_mma<F32,  F32,  F32,  16u, 16u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x4f32
-    amdgcn_mma<F16,  F16,  F32,  32u, 64u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x4f16
-    amdgcn_mma<F16,  F16,  F32,  64u, 32u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x4f16
-    amdgcn_mma<F16,  F16,  F32,  16u, 64u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x4f16
-    amdgcn_mma<F16,  F16,  F32,  64u, 16u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x4f16
-    amdgcn_mma<F16,  F16,  F32,  4u,  64u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x4f16
-    amdgcn_mma<F16,  F16,  F32,  64u, 4u,  4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x4f16
-    amdgcn_mma<F16,  F16,  F32,  32u, 32u, 8u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x8f16
-    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 16u,  DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x16f16
-    amdgcn_mma<I8,   I8,   I32,  32u, 64u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_32x32x4i8
-    amdgcn_mma<I8,   I8,   I32,  64u, 32u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_32x32x4i8
-    amdgcn_mma<I8,   I8,   I32,  16u, 64u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_16x16x4i8
-    amdgcn_mma<I8,   I8,   I32,  64u, 16u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_16x16x4i8
-    amdgcn_mma<I8,   I8,   I32,  4u,  64u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_4x4x4i8
-    amdgcn_mma<I8,   I8,   I32,  64u, 4u,  4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>   // mfma_i32_4x4x4i8
+    amdgcn_mma<F32,  F32,  F32,  32u, 64u, 1u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x1f32
+    amdgcn_mma<F32,  F32,  F32,  64u, 32u, 1u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x1f32
+    amdgcn_mma<F32,  F32,  F32,  16u, 64u, 1u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x1f32
+    amdgcn_mma<F32,  F32,  F32,  64u, 16u, 1u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x1f32
+    amdgcn_mma<F32,  F32,  F32,  4u,  64u, 1u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x1f32
+    amdgcn_mma<F32,  F32,  F32,  64u, 4u,  1u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x1f32
+    amdgcn_mma<F32,  F32,  F32,  32u, 32u, 2u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x2f32
+    amdgcn_mma<F32,  F32,  F32,  16u, 16u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x4f32
+    amdgcn_mma<F16,  F16,  F32,  32u, 64u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x4f16
+    amdgcn_mma<F16,  F16,  F32,  64u, 32u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x4f16
+    amdgcn_mma<F16,  F16,  F32,  16u, 64u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x4f16
+    amdgcn_mma<F16,  F16,  F32,  64u, 16u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x4f16
+    amdgcn_mma<F16,  F16,  F32,  4u,  64u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x4f16
+    amdgcn_mma<F16,  F16,  F32,  64u, 4u,  4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x4f16
+    amdgcn_mma<F16,  F16,  F32,  32u, 32u, 8u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x8f16
+    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 16u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x16f16
+    amdgcn_mma<I8,   I8,   I32,  32u, 64u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_32x32x4i8
+    amdgcn_mma<I8,   I8,   I32,  64u, 32u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_32x32x4i8
+    amdgcn_mma<I8,   I8,   I32,  16u, 64u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_16x16x4i8
+    amdgcn_mma<I8,   I8,   I32,  64u, 16u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_16x16x4i8
+    amdgcn_mma<I8,   I8,   I32,  4u,  64u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_4x4x4i8
+    amdgcn_mma<I8,   I8,   I32,  64u, 4u,  4u,   TestTarget, MmaOpFamily::DENSE>   // mfma_i32_4x4x4i8
 >;
 using Gfx908andGfx90aIntrinsics = ::testing::Types<
-    amdgcn_mma<BF16, BF16, F32,  32u, 64u, 2u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x2bf16
-    amdgcn_mma<BF16, BF16, F32,  64u, 32u, 2u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x2bf16
-    amdgcn_mma<BF16, BF16, F32,  16u, 64u, 2u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x2bf16
-    amdgcn_mma<BF16, BF16, F32,  64u, 16u, 2u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x2bf16
-    amdgcn_mma<BF16, BF16, F32,  4u,  64u, 2u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x2bf16
-    amdgcn_mma<BF16, BF16, F32,  64u, 4u,  2u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x2bf16
-    amdgcn_mma<BF16, BF16, F32,  32u, 32u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x4bf16
-    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 8u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x8bf16
-    amdgcn_mma<I8,   I8,   I32,  32u, 32u, 8u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_32x32x8i8
-    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 16u,  DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>   // mfma_i32_16x16x16i8
+    amdgcn_mma<BF16, BF16, F32,  32u, 64u, 2u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x2bf16
+    amdgcn_mma<BF16, BF16, F32,  64u, 32u, 2u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x2bf16
+    amdgcn_mma<BF16, BF16, F32,  16u, 64u, 2u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x2bf16
+    amdgcn_mma<BF16, BF16, F32,  64u, 16u, 2u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x2bf16
+    amdgcn_mma<BF16, BF16, F32,  4u,  64u, 2u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x2bf16
+    amdgcn_mma<BF16, BF16, F32,  64u, 4u,  2u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x2bf16
+    amdgcn_mma<BF16, BF16, F32,  32u, 32u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x4bf16
+    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 8u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x8bf16
+    amdgcn_mma<I8,   I8,   I32,  32u, 32u, 8u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_32x32x8i8
+    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 16u,  TestTarget, MmaOpFamily::DENSE>   // mfma_i32_16x16x16i8
 >;
 using Gfx90aAndHigherIntrinsics = ::testing::Types<
-    amdgcn_mma<BF16, BF16, F32,  32u, 64u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x4bf16_1k
-    amdgcn_mma<BF16, BF16, F32,  64u, 32u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x4bf16_1k
-    amdgcn_mma<BF16, BF16, F32,  16u, 64u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x4bf16_1k
-    amdgcn_mma<BF16, BF16, F32,  64u, 16u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x4bf16_1k
-    amdgcn_mma<BF16, BF16, F32,  4u,  64u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x4bf16_1k
-    amdgcn_mma<BF16, BF16, F32,  64u, 4u,  4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x4bf16_1k
-    amdgcn_mma<BF16, BF16, F32,  32u, 32u, 8u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x8bf16_1k
-    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 16u,  DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x16bf16_1k
-    amdgcn_mma<F64,  F64,  F64,  16u, 16u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f64_16x16x4f64
-    amdgcn_mma<F64,  F64,  F64,  4u,  16u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f64_4x4x4f64
-    amdgcn_mma<F64,  F64,  F64,  16u, 4u,  4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>   // mfma_f64_4x4x4f64
+    amdgcn_mma<BF16, BF16, F32,  32u, 64u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x4bf16_1k
+    amdgcn_mma<BF16, BF16, F32,  64u, 32u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x4bf16_1k
+    amdgcn_mma<BF16, BF16, F32,  16u, 64u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x4bf16_1k
+    amdgcn_mma<BF16, BF16, F32,  64u, 16u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x4bf16_1k
+    amdgcn_mma<BF16, BF16, F32,  4u,  64u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x4bf16_1k
+    amdgcn_mma<BF16, BF16, F32,  64u, 4u,  4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_4x4x4bf16_1k
+    amdgcn_mma<BF16, BF16, F32,  32u, 32u, 8u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x8bf16_1k
+    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 16u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x16bf16_1k
+    amdgcn_mma<F64,  F64,  F64,  16u, 16u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f64_16x16x4f64
+    amdgcn_mma<F64,  F64,  F64,  4u,  16u, 4u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f64_4x4x4f64
+    amdgcn_mma<F64,  F64,  F64,  16u, 4u,  4u,   TestTarget, MmaOpFamily::DENSE>   // mfma_f64_4x4x4f64
 >;
 using Gfx942AndHigherIntrinsics = ::testing::Types<
-    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 32u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_16x16x32_i8
-    amdgcn_mma<I8,   I8,   I32,  32u, 32u, 16u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_32x32x16_i8
-    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 32u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_bf8_bf8
-    amdgcn_mma<BF8,  F8,   F32,  16u, 16u, 32u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_bf8_fp8
-    amdgcn_mma<F8,   BF8,  F32,  16u, 16u, 32u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_fp8_bf8
-    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 32u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_fp8_fp8
-    amdgcn_mma<BF8,  BF8,  F32,  32u, 32u, 16u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_bf8_bf8
-    amdgcn_mma<BF8,  F8,   F32,  32u, 32u, 16u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_bf8_fp8
-    amdgcn_mma<F8,   BF8,  F32,  32u, 32u, 16u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_fp8_bf8
-    amdgcn_mma<F8,   F8,   F32,  32u, 32u, 16u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_fp8_fp8
-    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 32u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x32_f16
-    amdgcn_mma<F16,  F16,  F32,  32u, 32u, 16u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x16_f16
-    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 32u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x32_bf16
-    amdgcn_mma<BF16, BF16, F32,  32u, 32u, 16u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x16_bf16
-    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_i32_16x16x64_i8
-    amdgcn_mma<I8,   I8,   I32,  32u, 32u, 32u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_i32_32x32x32_i8
-    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_bf8_bf8
-    amdgcn_mma<BF8,  F8,   F32,  16u, 16u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_bf8_fp8
-    amdgcn_mma<F8,   BF8,  F32,  16u, 16u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_fp8_bf8
-    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_fp8_fp8
-    amdgcn_mma<BF8,  BF8,  F32,  32u, 32u, 32u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x32_bf8_bf8
-    amdgcn_mma<BF8,  F8,   F32,  32u, 32u, 32u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x32_bf8_fp8
-    amdgcn_mma<F8,   BF8,  F32,  32u, 32u, 32u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x32_fp8_bf8
-    amdgcn_mma<F8,   F8,   F32,  32u, 32u, 32u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>  // smfmac_f32_32x32x32_fp8_fp8
+    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 32u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_16x16x32_i8
+    amdgcn_mma<I8,   I8,   I32,  32u, 32u, 16u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_32x32x16_i8
+    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 32u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_bf8_bf8
+    amdgcn_mma<BF8,  F8,   F32,  16u, 16u, 32u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_bf8_fp8
+    amdgcn_mma<F8,   BF8,  F32,  16u, 16u, 32u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_fp8_bf8
+    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 32u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_fp8_fp8
+    amdgcn_mma<BF8,  BF8,  F32,  32u, 32u, 16u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_bf8_bf8
+    amdgcn_mma<BF8,  F8,   F32,  32u, 32u, 16u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_bf8_fp8
+    amdgcn_mma<F8,   BF8,  F32,  32u, 32u, 16u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_fp8_bf8
+    amdgcn_mma<F8,   F8,   F32,  32u, 32u, 16u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_fp8_fp8
+    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 32u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x32_f16
+    amdgcn_mma<F16,  F16,  F32,  32u, 32u, 16u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x16_f16
+    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 32u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x32_bf16
+    amdgcn_mma<BF16, BF16, F32,  32u, 32u, 16u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x16_bf16
+    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 64u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_i32_16x16x64_i8
+    amdgcn_mma<I8,   I8,   I32,  32u, 32u, 32u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_i32_32x32x32_i8
+    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 64u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_bf8_bf8
+    amdgcn_mma<BF8,  F8,   F32,  16u, 16u, 64u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_bf8_fp8
+    amdgcn_mma<F8,   BF8,  F32,  16u, 16u, 64u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_fp8_bf8
+    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 64u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_fp8_fp8
+    amdgcn_mma<BF8,  BF8,  F32,  32u, 32u, 32u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x32_bf8_bf8
+    amdgcn_mma<BF8,  F8,   F32,  32u, 32u, 32u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x32_bf8_fp8
+    amdgcn_mma<F8,   BF8,  F32,  32u, 32u, 32u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x32_fp8_bf8
+    amdgcn_mma<F8,   F8,   F32,  32u, 32u, 32u,  TestTarget, MmaOpFamily::SPARSE>  // smfmac_f32_32x32x32_fp8_fp8
 >;
 using Gfx942Intrinsics = ::testing::Types<
-    amdgcn_mma<TF32, TF32, F32,  16u, 16u, 8u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x8_xf32
-    amdgcn_mma<TF32, TF32, F32,  32u, 32u, 4u,   DefaultMfmaCtrlFlags,       TestTarget, MmaOpFamily::DENSE>   // mfma_f32_32x32x4_xf32
+    amdgcn_mma<TF32, TF32, F32,  16u, 16u, 8u,   TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x8_xf32
+    amdgcn_mma<TF32, TF32, F32,  32u, 32u, 4u,   TestTarget, MmaOpFamily::DENSE>   // mfma_f32_32x32x4_xf32
 >;
 using Gfx950Intrinsics = ::testing::Types<
-    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 32u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_f16
-    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 32u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_bf16
-    amdgcn_mma<F16,  F16,  F32,  32u, 32u, 16u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_f16
-    amdgcn_mma<BF16, BF16, F32,  32u, 32u, 16u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_bf16
-    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 64u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_16x16x64_i8
-    amdgcn_mma<I8,   I8,   I32,  32u, 32u, 32u,  DefaultMfmaCtrlFlags,                TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_32x32x32_i8
-    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 128u, DefaultScaleMfmaCtrlFlags,           TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_16x16x128_f8f6f4
-    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 128u, DefaultScaleMfmaCtrlFlags,           TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_16x16x128_f8f6f4
-    amdgcn_mma<F4,   F4,   F32,  16u, 16u, 128u, DefaultScaleMfmaCtrlFlags,           TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_16x16x128_f8f6f4
-    amdgcn_mma<F6,   F6,   F32,  16u, 16u, 128u, DefaultScaleMfmaCtrlFlags,           TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_16x16x128_f8f6f4
-    amdgcn_mma<BF6,  BF6,  F32,  16u, 16u, 128u, DefaultScaleMfmaCtrlFlags,           TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_16x16x128_f8f6f4
-    amdgcn_mma<F8,   F8,   F32,  32u, 32u, 64u,  DefaultScaleMfmaCtrlFlags,           TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_32x32x64_f8f6f4
-    amdgcn_mma<BF8,  BF8,  F32,  32u, 32u, 64u,  DefaultScaleMfmaCtrlFlags,           TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_32x32x64_f8f6f4
-    amdgcn_mma<F4,   F4,   F32,  32u, 32u, 64u,  DefaultScaleMfmaCtrlFlags,           TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_32x32x64_f8f6f4
-    amdgcn_mma<F6,   F6,   F32,  32u, 32u, 64u,  DefaultScaleMfmaCtrlFlags,           TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_32x32x64_f8f6f4
-    amdgcn_mma<BF6,  BF6,  F32,  32u, 32u, 64u,  DefaultScaleMfmaCtrlFlags,           TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_32x32x64_f8f6f4
-    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_f16
-    amdgcn_mma<F16,  F16,  F32,  32u, 32u, 32u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x32_f16
-    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_bf16
-    amdgcn_mma<BF16, BF16, F32,  32u, 32u, 32u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x32_bf16
-    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 128u, DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_i32_16x16x128_i8
-    amdgcn_mma<I8,   I8,   I32,  32u, 32u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_i32_32x32x64_i8
-    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 128u, DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x128_bf8_bf8
-    amdgcn_mma<BF8,  F8,   F32,  16u, 16u, 128u, DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x128_bf8_fp8
-    amdgcn_mma<F8,   BF8,  F32,  16u, 16u, 128u, DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x128_fp8_bf8
-    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 128u, DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x128_fp8_fp8
-    amdgcn_mma<BF8,  BF8,  F32,  32u, 32u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x64_bf8_bf8
-    amdgcn_mma<BF8,  F8,   F32,  32u, 32u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x64_bf8_fp8
-    amdgcn_mma<F8,   BF8,  F32,  32u, 32u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x64_fp8_bf8
-    amdgcn_mma<F8,   F8,   F32,  32u, 32u, 64u,  DefaultSparseMfmaCtrlFlags,          TestTarget, MmaOpFamily::SPARSE>  // smfmac_f32_32x32x64_fp8_fp8
+    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 32u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_f16
+    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 32u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_16x16x32_bf16
+    amdgcn_mma<F16,  F16,  F32,  32u, 32u, 16u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_f16
+    amdgcn_mma<BF16, BF16, F32,  32u, 32u, 16u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_f32_32x32x16_bf16
+    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 64u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_16x16x64_i8
+    amdgcn_mma<I8,   I8,   I32,  32u, 32u, 32u,  TestTarget, MmaOpFamily::DENSE>,  // mfma_i32_32x32x32_i8
+    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 128u, TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_16x16x128_f8f6f4
+    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 128u, TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_16x16x128_f8f6f4
+    amdgcn_mma<F4,   F4,   F32,  16u, 16u, 128u, TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_16x16x128_f8f6f4
+    amdgcn_mma<F6,   F6,   F32,  16u, 16u, 128u, TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_16x16x128_f8f6f4
+    amdgcn_mma<BF6,  BF6,  F32,  16u, 16u, 128u, TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_16x16x128_f8f6f4
+    amdgcn_mma<F8,   F8,   F32,  32u, 32u, 64u,  TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_32x32x64_f8f6f4
+    amdgcn_mma<BF8,  BF8,  F32,  32u, 32u, 64u,  TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_32x32x64_f8f6f4
+    amdgcn_mma<F4,   F4,   F32,  32u, 32u, 64u,  TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_32x32x64_f8f6f4
+    amdgcn_mma<F6,   F6,   F32,  32u, 32u, 64u,  TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_32x32x64_f8f6f4
+    amdgcn_mma<BF6,  BF6,  F32,  32u, 32u, 64u,  TestTarget, MmaOpFamily::SCALE>,  // mfma_scale_f32_32x32x64_f8f6f4
+    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 64u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_f16
+    amdgcn_mma<F16,  F16,  F32,  32u, 32u, 32u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x32_f16
+    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 64u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x64_bf16
+    amdgcn_mma<BF16, BF16, F32,  32u, 32u, 32u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x32_bf16
+    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 128u, TestTarget, MmaOpFamily::SPARSE>, // smfmac_i32_16x16x128_i8
+    amdgcn_mma<I8,   I8,   I32,  32u, 32u, 64u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_i32_32x32x64_i8
+    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 128u, TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x128_bf8_bf8
+    amdgcn_mma<BF8,  F8,   F32,  16u, 16u, 128u, TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x128_bf8_fp8
+    amdgcn_mma<F8,   BF8,  F32,  16u, 16u, 128u, TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x128_fp8_bf8
+    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 128u, TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_16x16x128_fp8_fp8
+    amdgcn_mma<BF8,  BF8,  F32,  32u, 32u, 64u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x64_bf8_bf8
+    amdgcn_mma<BF8,  F8,   F32,  32u, 32u, 64u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x64_bf8_fp8
+    amdgcn_mma<F8,   BF8,  F32,  32u, 32u, 64u,  TestTarget, MmaOpFamily::SPARSE>, // smfmac_f32_32x32x64_fp8_bf8
+    amdgcn_mma<F8,   F8,   F32,  32u, 32u, 64u,  TestTarget, MmaOpFamily::SPARSE>  // smfmac_f32_32x32x64_fp8_fp8
 >;
 using Gfx11Intrinsics = ::testing::Types<
-    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target11,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_f16_w32
-    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target11,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_bf16_w32
-    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target11,   MmaOpFamily::DENSE>,  // wmma_i32_16x16x16_iu8_w32
-    amdgcn_mma<I4,   I4,   I32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target11,   MmaOpFamily::DENSE>   // wmma_i32_16x16x16_iu4_w32
+    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 16u,  Target11,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_f16_w32
+    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 16u,  Target11,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_bf16_w32
+    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 16u,  Target11,   MmaOpFamily::DENSE>,  // wmma_i32_16x16x16_iu8_w32
+    amdgcn_mma<I4,   I4,   I32,  16u, 16u, 16u,  Target11,   MmaOpFamily::DENSE>   // wmma_i32_16x16x16_iu4_w32
 >;
 using Gfx12Intrinsics = ::testing::Types<
-    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_f16_w32_gfx12
-    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_bf16_w32_gfx12
-    amdgcn_mma<F16,  F16,  F16,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::DENSE>,  // wmma_f16_16x16x16_f16_w32_gfx12
-    amdgcn_mma<BF16, BF16, BF16, 16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::DENSE>,  // wmma_bf16_16x16x16_bf16_w32_gfx12
-    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::DENSE>,  // wmma_i32_16x16x16_iu8_w32_gfx12
-    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_fp8_fp8_w32_gfx12
-    amdgcn_mma<F8,   BF8,  F32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_fp8_bf8_w32_gfx12
-    amdgcn_mma<BF8,  F8,   F32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_bf8_fp8_w32_gfx12
-    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_bf8_bf8_w32_gfx12
-    amdgcn_mma<I4,   I4,   I32,  16u, 16u, 16u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::DENSE>,  // wmma_i32_16x16x16_iu4_w32_gfx12
-    amdgcn_mma<I4,   I4,   I32,  16u, 16u, 32u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::DENSE>,  // wmma_i32_16x16x32_iu4_w32_gfx12
-    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 32u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_f16_w32
-    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 32u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_bf16_w32
-    amdgcn_mma<F16,  F16,  F16,  16u, 16u, 32u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::SPARSE>, // swmmac_f16_16x16x32_f16_w32
-    amdgcn_mma<BF16, BF16, BF16, 16u, 16u, 32u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::SPARSE>, // swmmac_bf16_16x16x32_bf16_w32
-    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 32u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::SPARSE>, // swmmac_i32_16x16x32_iu8_w32
-    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 32u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_fp8_fp8_w32
-    amdgcn_mma<F8,   BF8,  F32,  16u, 16u, 32u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_fp8_bf8_w32
-    amdgcn_mma<BF8,  F8,   F32,  16u, 16u, 32u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_bf8_fp8_w32
-    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 32u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_bf8_bf8_w32
-    amdgcn_mma<I4,   I4,   I32,  16u, 16u, 32u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::SPARSE>, // swmmac_i32_16x16x32_iu4_w32
-    amdgcn_mma<I4,   I4,   I32,  16u, 16u, 64u,  DefaultWmmaCtrlFlags,                Target12,   MmaOpFamily::SPARSE>  // swmmac_i32_16x16x64_iu4_w32
+    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 16u,  Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_f16_w32_gfx12
+    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 16u,  Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_bf16_w32_gfx12
+    amdgcn_mma<F16,  F16,  F16,  16u, 16u, 16u,  Target12,   MmaOpFamily::DENSE>,  // wmma_f16_16x16x16_f16_w32_gfx12
+    amdgcn_mma<BF16, BF16, BF16, 16u, 16u, 16u,  Target12,   MmaOpFamily::DENSE>,  // wmma_bf16_16x16x16_bf16_w32_gfx12
+    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 16u,  Target12,   MmaOpFamily::DENSE>,  // wmma_i32_16x16x16_iu8_w32_gfx12
+    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 16u,  Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_fp8_fp8_w32_gfx12
+    amdgcn_mma<F8,   BF8,  F32,  16u, 16u, 16u,  Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_fp8_bf8_w32_gfx12
+    amdgcn_mma<BF8,  F8,   F32,  16u, 16u, 16u,  Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_bf8_fp8_w32_gfx12
+    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 16u,  Target12,   MmaOpFamily::DENSE>,  // wmma_f32_16x16x16_bf8_bf8_w32_gfx12
+    amdgcn_mma<I4,   I4,   I32,  16u, 16u, 16u,  Target12,   MmaOpFamily::DENSE>,  // wmma_i32_16x16x16_iu4_w32_gfx12
+    amdgcn_mma<I4,   I4,   I32,  16u, 16u, 32u,  Target12,   MmaOpFamily::DENSE>,  // wmma_i32_16x16x32_iu4_w32_gfx12
+    amdgcn_mma<F16,  F16,  F32,  16u, 16u, 32u,  Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_f16_w32
+    amdgcn_mma<BF16, BF16, F32,  16u, 16u, 32u,  Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_bf16_w32
+    amdgcn_mma<F16,  F16,  F16,  16u, 16u, 32u,  Target12,   MmaOpFamily::SPARSE>, // swmmac_f16_16x16x32_f16_w32
+    amdgcn_mma<BF16, BF16, BF16, 16u, 16u, 32u,  Target12,   MmaOpFamily::SPARSE>, // swmmac_bf16_16x16x32_bf16_w32
+    amdgcn_mma<I8,   I8,   I32,  16u, 16u, 32u,  Target12,   MmaOpFamily::SPARSE>, // swmmac_i32_16x16x32_iu8_w32
+    amdgcn_mma<F8,   F8,   F32,  16u, 16u, 32u,  Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_fp8_fp8_w32
+    amdgcn_mma<F8,   BF8,  F32,  16u, 16u, 32u,  Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_fp8_bf8_w32
+    amdgcn_mma<BF8,  F8,   F32,  16u, 16u, 32u,  Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_bf8_fp8_w32
+    amdgcn_mma<BF8,  BF8,  F32,  16u, 16u, 32u,  Target12,   MmaOpFamily::SPARSE>, // swmmac_f32_16x16x32_bf8_bf8_w32
+    amdgcn_mma<I4,   I4,   I32,  16u, 16u, 32u,  Target12,   MmaOpFamily::SPARSE>, // swmmac_i32_16x16x32_iu4_w32
+    amdgcn_mma<I4,   I4,   I32,  16u, 16u, 64u,  Target12,   MmaOpFamily::SPARSE>  // swmmac_i32_16x16x64_iu4_w32
 >;
 // clang-format on