[CK_BUILDER] Add conv factories for DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle and DeviceGroupedConvFwdMultipleD_Wmma_CShuffle (#3138)

* Add device operation to conv signature. Use unions to hold conv layouts and device operations. * Add predicates for all device op instances. * Use the device op signature for validation. * Fix ckb CMakeLists.txt file for tests. * Fix building CK Builder instance traits after the introduction of direct load template parameter in CK. * Fix clang-formatting. * Add factory for DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle device op. * Add conv factory for DeviceGroupedConvFwdMultipleD_Wmma_CShuffle * Rename elements per wave per shuffle member in the epilogue concept. * clang-format * Add concepts and types for optional device op template parameters. * Add optional compute, direct load, and loop scheduler arguments to conv factory. * Add number of groups to merge template parameter. * clang-format.
2026-04-19 22:39:03 +00:00 · 2025-11-03 09:03:25 +02:00
parent 16e85cf179
commit 3ae3992c18
16 changed files with 986 additions and 168 deletions
--- a/experimental/builder/include/ck_tile/builder/conv_algorithm_concepts.hpp
+++ b/experimental/builder/include/ck_tile/builder/conv_algorithm_concepts.hpp
@@ -24,9 +24,9 @@ concept ThreadBlockDescriptor = requires(T t) {
    { t.tile_size.k } -> std::convertible_to<size_t>;
 };

-// Concept for parameters that describe a gridwise GEMM problem.
+// Concept for parameters that describe a gridwise XDL GEMM problem.
 template <typename T>
-concept GridwiseGemmDescriptor = requires(T t) {
+concept GridwiseXdlGemmDescriptor = requires(T t) {
    { t.ak1 } -> std::convertible_to<size_t>;
    { t.bk1 } -> std::convertible_to<size_t>;
    { t.m_per_xdl } -> std::convertible_to<size_t>;
@@ -35,6 +35,24 @@ concept GridwiseGemmDescriptor = requires(T t) {
    { t.n_xdl_per_wave } -> std::convertible_to<size_t>;
 };

+// Concept for parameter that describe block GEMM problem.
+template <typename T>
+concept BlockGemmDescriptor = requires(T t) {
+    { t.pipeline_version } -> std::convertible_to<BlockGemmPipelineVersion>;
+    { t.scheduler } -> std::convertible_to<BlockGemmPipelineScheduler>;
+};
+
+// Concept for parameters that describe a gridwise WMMA GEMM problem.
+template <typename T>
+concept GridwiseWmmaGemmDescriptor = requires(T t) {
+    { t.k1 } -> std::convertible_to<size_t>;
+    { t.m_per_wmma } -> std::convertible_to<size_t>;
+    { t.n_per_wmma } -> std::convertible_to<size_t>;
+    { t.m_wmma_per_wave } -> std::convertible_to<size_t>;
+    { t.n_wmma_per_wave } -> std::convertible_to<size_t>;
+    { t.pipeline_version } -> std::convertible_to<GridwiseGemmPipelineVersion>;
+};
+
 // Concept for vectorized data transfer for convolution input tensors.
 template <typename T>
 concept BlockTransferDescriptor = requires(T t) {
@@ -66,8 +84,8 @@ concept LdsTransferDescriptor = requires(T t) {
 // LDS).
 template <typename T>
 concept EpilogueDescriptor = requires(T t) {
-    { t.m_xdl_per_wave_per_shuffle } -> std::convertible_to<size_t>;
-    { t.n_xdl_per_wave_per_shuffle } -> std::convertible_to<size_t>;
+    { t.m_per_wave_per_shuffle } -> std::convertible_to<size_t>;
+    { t.n_per_wave_per_shuffle } -> std::convertible_to<size_t>;
    { t.scalar_per_vector } -> std::convertible_to<size_t>;
 };

@@ -77,7 +95,7 @@ concept AccessOrderDescriptor = requires(T t) {
    { t.order } -> std::convertible_to<std::array<size_t, 3>>;
 };

-// No requirements yet for a ConvAlogorithm concept.
+// No requirements yet for a ConvAlgorithm concept.
 template <typename T>
 concept ConvAlgorithmDescriptor = std::is_class_v<T>;

@@ -91,10 +109,16 @@ concept SpecifiesThreadBlock = requires {
    { T::thread_block } -> ThreadBlockDescriptor;
 };

-// Concept to check if a struct specifies gridwise GEMM info.
+// Concept to check if a struct specifies gridwise XDL GEMM info.
 template <typename T>
-concept SpecifiesGridwiseGemm = requires {
-    { T::gridwise_gemm } -> GridwiseGemmDescriptor;
+concept SpecifiesGridwiseXdlGemm = requires {
+    { T::gridwise_gemm } -> GridwiseXdlGemmDescriptor;
+};
+
+// Concept to check if a struct specifies gridwise WMMA GEMM info.
+template <typename T>
+concept SpecifiesGridwiseWmmaGemm = requires {
+    { T::gridwise_gemm } -> GridwiseWmmaGemmDescriptor;
 };

 // Concept to check if a struct specifies convolution input and output block transfer info.
@@ -127,10 +151,11 @@ concept SpecifiesSourceAccessOrder = requires(T t) {
    { T::block_transfer.src_access_order_b } -> AccessOrderDescriptor;
 };

-// Concept to check if struct specifies block_gemm_pipeline_version.
+// Concept to check if struct specifies block GEMM.
 template <typename T>
-concept SpecifiesGemmPipelineVersion = requires {
-    { T::pipeline_version } -> std::convertible_to<BlockGemmPipelineVersion>;
+concept SpecifiesBlockGemm = requires {
+    { T::block_gemm.pipeline_version } -> std::convertible_to<BlockGemmPipelineVersion>;
+    { T::block_gemm.scheduler } -> std::convertible_to<BlockGemmPipelineScheduler>;
 };

 template <typename T>
@@ -138,4 +163,24 @@ concept SpecifiesFwdConcSpecialization = requires {
    { T::fwd_specialization } -> std::convertible_to<ConvFwdSpecialization>;
 };

+template <typename T>
+concept SpecifiesGemmSpecialization = requires {
+    { T::gemm_specialization } -> std::convertible_to<GemmSpecialization>;
+};
+
+template <typename T>
+concept SpecifiesNumPrefetchStages = requires {
+    { T::num_gemm_k_prefetch_stages } -> std::convertible_to<size_t>;
+};
+
+template <typename T>
+concept SpecifiesNumGroupsToMerge = requires {
+    { T::num_groups_to_merge } -> std::convertible_to<size_t>;
+};
+
+template <typename T>
+concept SpecifiesLoopScheduler = requires {
+    { T::loop_scheduler } -> std::convertible_to<LoopScheduler>;
+};
+
 } // namespace ck_tile::builder
--- a/experimental/builder/include/ck_tile/builder/conv_algorithm_limits.hpp
+++ b/experimental/builder/include/ck_tile/builder/conv_algorithm_limits.hpp
@@ -18,8 +18,8 @@ concept InputVectorTransferLimits = requires {
 // Limits for output vector transfer.
 template <auto Value>
 concept OutputVectorTransferLimits = requires {
-    requires Value.scalar_per_vector > 0 && Value.m_xdl_per_wave_per_shuffle > 0 &&
-                     Value.n_xdl_per_wave_per_shuffle > 0;
+    requires Value.scalar_per_vector > 0 && Value.m_per_wave_per_shuffle > 0 &&
+                     Value.n_per_wave_per_shuffle > 0;
 };

 // Limits for access order. Must be a permutation of {0, 1, 2}.
--- a/experimental/builder/include/ck_tile/builder/conv_factory.hpp
+++ b/experimental/builder/include/ck_tile/builder/conv_factory.hpp
@@ -36,6 +36,8 @@

 #pragma once

+#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_wmma_cshuffle.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_abd_xdl_cshuffle.hpp"
 #include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_abd_xdl_cshuffle_v3.hpp"
 #include "ck_tile/builder/conv_signature_concepts.hpp"
 #include "ck_tile/builder/conv_algorithm_concepts.hpp"
@@ -194,7 +196,9 @@ template <>
 struct ConvTensorTypes<DataType::FP16>
 {
    using ADataType        = ck::half_t;
+    using AComputeType     = ck::half_t;
    using BDataType        = ck::half_t;
+    using BComputeType     = ck::half_t;
    using CShuffleDataType = ck::half_t;
    using DsDataTypes      = ck::Tuple<>;
    using AccDataType      = float;
@@ -205,7 +209,9 @@ template <>
 struct ConvTensorTypes<DataType::BF16>
 {
    using ADataType        = ck::bhalf_t;
+    using AComputeType     = ck::bhalf_t;
    using BDataType        = ck::bhalf_t;
+    using BComputeType     = ck::bhalf_t;
    using CShuffleDataType = ck::bhalf_t;
    using DsDataTypes      = ck::Tuple<>;
    using AccDataType      = float;
@@ -216,13 +222,28 @@ template <>
 struct ConvTensorTypes<DataType::FP32>
 {
    using ADataType        = float;
+    using AComputeType     = float;
    using BDataType        = float;
+    using BComputeType     = float;
    using CShuffleDataType = float;
    using DsDataTypes      = ck::Tuple<>;
    using AccDataType      = float;
    using EDataType        = float;
 };

+template <>
+struct ConvTensorTypes<DataType::I8>
+{
+    using ADataType        = int8_t;
+    using AComputeType     = int8_t;
+    using BDataType        = int8_t;
+    using BComputeType     = int8_t;
+    using CShuffleDataType = int8_t;
+    using DsDataTypes      = ck::Tuple<>;
+    using AccDataType      = int32_t;
+    using EDataType        = int8_t;
+};
+
 template <ElementwiseOperation T>
 struct ElementwiseOps
 {
@@ -262,6 +283,61 @@ struct ConvSpec
 template <typename CONV_ENUM, typename GEMM_ENUM>
 ConvSpec(CONV_ENUM, GEMM_ENUM) -> ConvSpec<CONV_ENUM>;

+struct BlockGemmSpec
+{
+    ck::BlockGemmPipelineVersion pipeline_version;
+    ck::BlockGemmPipelineScheduler scheduler;
+};
+
+template <ConvAlgorithmDescriptor auto ALGORITHM>
+constexpr BlockGemmSpec SetBlockGemm()
+{
+    constexpr auto& BG = ALGORITHM.block_gemm;
+
+    ck::BlockGemmPipelineScheduler scheduler;
+    ck::BlockGemmPipelineVersion version;
+
+    if constexpr(BG.scheduler == BlockGemmPipelineScheduler::INTRAWAVE)
+    {
+        scheduler = ck::BlockGemmPipelineScheduler::Intrawave;
+    }
+    else if constexpr(BG.scheduler == BlockGemmPipelineScheduler::INTERWAVE)
+    {
+        scheduler = ck::BlockGemmPipelineScheduler::Interwave;
+    }
+    else
+    {
+        static_assert(false, "Unknown BlockGemmPipelineScheduler");
+    }
+
+    if constexpr(BG.pipeline_version == BlockGemmPipelineVersion::V1)
+    {
+        version = ck::BlockGemmPipelineVersion::v1;
+    }
+    else if constexpr(BG.pipeline_version == BlockGemmPipelineVersion::V2)
+    {
+        version = ck::BlockGemmPipelineVersion::v2;
+    }
+    else if constexpr(BG.pipeline_version == BlockGemmPipelineVersion::V3)
+    {
+        version = ck::BlockGemmPipelineVersion::v3;
+    }
+    else if constexpr(BG.pipeline_version == BlockGemmPipelineVersion::V4)
+    {
+        version = ck::BlockGemmPipelineVersion::v4;
+    }
+    else if constexpr(BG.pipeline_version == BlockGemmPipelineVersion::V5)
+    {
+        version = ck::BlockGemmPipelineVersion::v5;
+    }
+    else
+    {
+        static_assert(false, "Unknown BlockGemmPipelineVersion");
+    }
+
+    return BlockGemmSpec{.pipeline_version = version, .scheduler = scheduler};
+}
+
 // Block info for a convolution.
 struct MNK
 {
@@ -283,31 +359,6 @@ constexpr ConvBlock SetThreadBlockInfo()
                     .per_block  = {.m = TB.tile_size.m, .n = TB.tile_size.n, .k = TB.tile_size.k}};
 }

-// Convolution tuning parameters.
-struct GridwiseGemm
-{
-    size_t ak1            = 0;
-    size_t bk1            = 0;
-    size_t m_per_xdl      = 0;
-    size_t n_per_xdl      = 0;
-    size_t m_xdl_per_wave = 0;
-    size_t n_xdl_per_wave = 0;
-};
-
-template <ConvSignatureDescriptor auto SIGNATURE, ConvAlgorithmDescriptor auto ALGORITHM>
-constexpr GridwiseGemm SetGridwiseGemmInfo()
-{
-    constexpr auto& TP = ALGORITHM.gridwise_gemm;
-    return GridwiseGemm{
-        .ak1            = TP.ak1,
-        .bk1            = TP.bk1,
-        .m_per_xdl      = TP.m_per_xdl,
-        .n_per_xdl      = TP.n_per_xdl,
-        .m_xdl_per_wave = TP.m_xdl_per_wave,
-        .n_xdl_per_wave = TP.n_xdl_per_wave,
-    };
-}
-
 // Block transfer parameters for A or B tensor.
 struct BlockTransfer
 {
@@ -362,8 +413,8 @@ constexpr BlockTransfer SetFwdConvBBlockTransfer()
 // Block transfer parameters for C tensor.
 struct CBlockTransfer
 {
-    size_t m_xdl_per_wave_per_shuffle        = 0;
-    size_t n_xdl_per_wave_per_shuffle        = 0;
+    size_t m_per_wave_per_shuffle            = 0;
+    size_t n_per_wave_per_shuffle            = 0;
    ck::Array<size_t, 4> thread_cluster_dims = {0, 0, 0, 0};
    size_t scalar_per_vector                 = 0;
 };
@@ -373,8 +424,8 @@ constexpr CBlockTransfer SetCBlockTransfer()
 {
    constexpr auto& TCL = ALGORITHM.block_transfer.thread_cluster_dims_c;
    constexpr auto& EPC = ALGORITHM.block_transfer.epilogue_c;
-    CBlockTransfer block_transfer{.m_xdl_per_wave_per_shuffle = EPC.m_xdl_per_wave_per_shuffle,
-                                  .n_xdl_per_wave_per_shuffle = EPC.n_xdl_per_wave_per_shuffle,
+    CBlockTransfer block_transfer{.m_per_wave_per_shuffle = EPC.m_per_wave_per_shuffle,
+                                  .n_per_wave_per_shuffle = EPC.n_per_wave_per_shuffle,
                                  .thread_cluster_dims =
                                      {
                                          TCL.m_block,
@@ -386,6 +437,130 @@ constexpr CBlockTransfer SetCBlockTransfer()
    return block_transfer;
 }

+template <ConvAlgorithmDescriptor auto ALGORITHM>
+consteval ck::LoopScheduler SetLoopScheduler()
+{
+    constexpr auto loop_scheduler = ALGORITHM.loop_scheduler;
+
+    if constexpr(loop_scheduler == LoopScheduler::DEFAULT)
+    {
+        return ck::LoopScheduler::Default;
+    }
+    else if constexpr(loop_scheduler == LoopScheduler::INTERWAVE)
+    {
+        return ck::LoopScheduler::Interwave;
+    }
+    else
+    {
+        static_assert(false, "Unknown LoopScheduler");
+    }
+}
+
+template <ConvAlgorithmDescriptor auto ALGORITHM>
+consteval ck::PipelineVersion SetGridwiseGemmPipelineVersion()
+{
+    constexpr auto pipeline_version = ALGORITHM.gridwise_gemm.pipeline_version;
+    if constexpr(pipeline_version == GridwiseGemmPipelineVersion::V1)
+    {
+        return ck::PipelineVersion::v1;
+    }
+    else if constexpr(pipeline_version == GridwiseGemmPipelineVersion::V2)
+    {
+        return ck::PipelineVersion::v2;
+    }
+    else if constexpr(pipeline_version == GridwiseGemmPipelineVersion::V3)
+    {
+        static_assert(false, "V3 is used only for stream-K.");
+    }
+    else if constexpr(pipeline_version == GridwiseGemmPipelineVersion::V4)
+    {
+        return ck::PipelineVersion::v4;
+    }
+    else if constexpr(pipeline_version == GridwiseGemmPipelineVersion::WEIGHT_ONLY)
+    {
+        return ck::PipelineVersion::weight_only;
+    }
+    else
+    {
+        static_assert(false, "Unknown GridwiseGemmPipelineVersion");
+    }
+}
+
+template <ConvAlgorithmDescriptor auto ALGORITHM>
+consteval ck::tensor_operation::device::GemmSpecialization SetGemmSpecialization()
+{
+    constexpr auto gemm_spec = ALGORITHM.gemm_specialization;
+
+    if constexpr(gemm_spec == GemmSpecialization::Default)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::Default;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::MPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::MPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::NPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::NPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::KPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::KPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::MNPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::MNPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::MKPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::MKPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::NKPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::NKPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::MNKPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::MNKPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::OPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::OPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::MOPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::MOPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::NOPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::NOPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::KOPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::KOPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::MNOPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::MNOPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::MKOPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::MKOPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::NKOPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::NKOPadding;
+    }
+    else if constexpr(gemm_spec == GemmSpecialization::MNKOPadding)
+    {
+        return ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+    }
+    else
+    {
+        static_assert(false, "Unknown GemmSpecialization");
+    }
+}
+
 template <ConvAlgorithmDescriptor auto ALGORITHM>
 consteval ck::BlockGemmPipelineVersion SetBlockGemmPipelineVersion()
 {
@@ -473,7 +648,7 @@ struct ConvFactory<SIGNATURE, ALGORITHM, VERSION>

    static_assert(SpecifiesThreadBlock<AlgorithmType>,
                  "The convolution algorithm descriptor must specify thread block info.");
-    static_assert(SpecifiesGridwiseGemm<AlgorithmType>,
+    static_assert(SpecifiesGridwiseXdlGemm<AlgorithmType>,
                  "The convolution algorithm descriptor must specify gridwise GEMM info.");
    static_assert(SpecifiesBlockTransfer<AlgorithmType>,
                  "The convolution algorithm descriptor must specify block transfer info.");
@@ -484,30 +659,34 @@ struct ConvFactory<SIGNATURE, ALGORITHM, VERSION>
        "The convolution algorithm descriptor must specify thread cluster access order info.");
    static_assert(SpecifiesSourceAccessOrder<AlgorithmType>,
                  "The convolution algorithm descriptor must specify source access order info.");
-    static_assert(SpecifiesGemmPipelineVersion<AlgorithmType>,
-                  "The convolution algorithm descriptor must specify block gemm pipeline version.");
+    static_assert(SpecifiesBlockGemm<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify block gemm pipeline.");
    static_assert(SpecifiesFwdConcSpecialization<AlgorithmType>,
                  "The convolution algorithm descriptor must specify forward convolution "
                  "specialization.");
+    static_assert(SpecifiesGemmSpecialization<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify gemm specialization.");
+    static_assert(ALGORITHM.block_transfer.lds_transfer_a.is_direct_load ==
+                      ALGORITHM.block_transfer.lds_transfer_b.is_direct_load,
+                  "A and B block transfers must both be direct load or not.");

+    static constexpr bool IS_DIRECT_LOAD = ALGORITHM.block_transfer.lds_transfer_a.is_direct_load;
    static constexpr auto FWD_CONV_SPECIALIZATION =
        factory_internal::SetFwdConvSpecialization<ALGORITHM>();
-    static constexpr factory_internal::ConvSpec SPECIALIZATION{
-        .conv_spec = FWD_CONV_SPECIALIZATION,
-        .gemm_spec = ck::tensor_operation::device::GemmSpecialization::MNKPadding,
-    };
-    static constexpr auto BLOCK = factory_internal::SetThreadBlockInfo<ALGORITHM>();
-    static constexpr auto GRIDWISE_GEMM =
-        factory_internal::SetGridwiseGemmInfo<SIGNATURE, ALGORITHM>();
+    static constexpr auto GEMM_SPECIALIZATION =
+        factory_internal::SetGemmSpecialization<ALGORITHM>();
+    static constexpr factory_internal::ConvSpec SPECIALIZATION{.conv_spec = FWD_CONV_SPECIALIZATION,
+                                                               .gemm_spec = GEMM_SPECIALIZATION};
+
+    static constexpr auto BLOCK         = factory_internal::SetThreadBlockInfo<ALGORITHM>();
+    static constexpr auto GRIDWISE_GEMM = ALGORITHM.gridwise_gemm;
    static constexpr auto A_BLOCK_TRANSFER =
        factory_internal::SetFwdConvABlockTransfer<ALGORITHM>();
    static constexpr auto B_BLOCK_TRANSFER =
        factory_internal::SetFwdConvBBlockTransfer<ALGORITHM>();
    static constexpr auto C_BLOCK_TRANSFER =
        factory_internal::SetCBlockTransfer<SIGNATURE, ALGORITHM>();
-    static constexpr auto PIPELINE_SCHEDULER = ck::BlockGemmPipelineScheduler::Intrawave;
-    static constexpr auto PIPELINE_VERSION =
-        factory_internal::SetBlockGemmPipelineVersion<ALGORITHM>();
+    static constexpr auto BLOCK_GEMM = factory_internal::SetBlockGemm<ALGORITHM>();

    // Check limits for the algorithm parameters.
    // TODO: Add more limits checks as needed.
@@ -520,54 +699,295 @@ struct ConvFactory<SIGNATURE, ALGORITHM, VERSION>
    static_assert(AccessOrderLimits<B_BLOCK_TRANSFER.src_access_order>);

    // The forward convolution kernel class instance.
-    using Instance =
-        ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3< //
-            SPATIAL_DIM,
-            typename Layouts::ALayout,
-            typename Layouts::BLayout,
-            typename Layouts::DsLayout,
-            typename Layouts::ELayout,
-            typename Types::ADataType,
-            typename Types::BDataType,
-            typename Types::AccDataType,
-            typename Types::CShuffleDataType,
-            typename Types::DsDataTypes,
-            typename Types::EDataType,
-            typename Ops::AElementwiseOp,
-            typename Ops::BElementwiseOp,
-            typename Ops::CDEElementwiseOp,
-            SPECIALIZATION.conv_spec,
-            SPECIALIZATION.gemm_spec,
-            BLOCK.block_size,
-            BLOCK.per_block.m,
-            BLOCK.per_block.n,
-            BLOCK.per_block.k,
-            GRIDWISE_GEMM.ak1,
-            GRIDWISE_GEMM.bk1,
-            GRIDWISE_GEMM.m_per_xdl,
-            GRIDWISE_GEMM.n_per_xdl,
-            GRIDWISE_GEMM.m_xdl_per_wave,
-            GRIDWISE_GEMM.n_xdl_per_wave,
-            to_sequence_v<A_BLOCK_TRANSFER.thread_cluster_dims>,
-            to_sequence_v<A_BLOCK_TRANSFER.thread_cluster_order>,
-            to_sequence_v<A_BLOCK_TRANSFER.src_access_order>,
-            A_BLOCK_TRANSFER.src_vector_dim,
-            A_BLOCK_TRANSFER.src_scalar_per_vector,
-            A_BLOCK_TRANSFER.lds_dst_scalar_per_vector,
-            A_BLOCK_TRANSFER.lds_padding,
-            to_sequence_v<B_BLOCK_TRANSFER.thread_cluster_dims>,
-            to_sequence_v<B_BLOCK_TRANSFER.thread_cluster_order>,
-            to_sequence_v<B_BLOCK_TRANSFER.src_access_order>,
-            B_BLOCK_TRANSFER.src_vector_dim,
-            B_BLOCK_TRANSFER.src_scalar_per_vector,
-            B_BLOCK_TRANSFER.lds_dst_scalar_per_vector,
-            B_BLOCK_TRANSFER.lds_padding,
-            C_BLOCK_TRANSFER.m_xdl_per_wave_per_shuffle,
-            C_BLOCK_TRANSFER.n_xdl_per_wave_per_shuffle,
-            to_sequence_v<C_BLOCK_TRANSFER.thread_cluster_dims>,
-            C_BLOCK_TRANSFER.scalar_per_vector,
-            PIPELINE_SCHEDULER,
-            PIPELINE_VERSION>;
+    using Instance = ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3<
+        SPATIAL_DIM,
+        typename Layouts::ALayout,
+        typename Layouts::BLayout,
+        typename Layouts::DsLayout,
+        typename Layouts::ELayout,
+        typename Types::ADataType,
+        typename Types::BDataType,
+        typename Types::AccDataType,
+        typename Types::CShuffleDataType,
+        typename Types::DsDataTypes,
+        typename Types::EDataType,
+        typename Ops::AElementwiseOp,
+        typename Ops::BElementwiseOp,
+        typename Ops::CDEElementwiseOp,
+        SPECIALIZATION.conv_spec,
+        SPECIALIZATION.gemm_spec,
+        BLOCK.block_size,
+        BLOCK.per_block.m,
+        BLOCK.per_block.n,
+        BLOCK.per_block.k,
+        GRIDWISE_GEMM.ak1,
+        GRIDWISE_GEMM.bk1,
+        GRIDWISE_GEMM.m_per_xdl,
+        GRIDWISE_GEMM.n_per_xdl,
+        GRIDWISE_GEMM.m_xdl_per_wave,
+        GRIDWISE_GEMM.n_xdl_per_wave,
+        to_sequence_v<A_BLOCK_TRANSFER.thread_cluster_dims>,
+        to_sequence_v<A_BLOCK_TRANSFER.thread_cluster_order>,
+        to_sequence_v<A_BLOCK_TRANSFER.src_access_order>,
+        A_BLOCK_TRANSFER.src_vector_dim,
+        A_BLOCK_TRANSFER.src_scalar_per_vector,
+        A_BLOCK_TRANSFER.lds_dst_scalar_per_vector,
+        A_BLOCK_TRANSFER.lds_padding,
+        to_sequence_v<B_BLOCK_TRANSFER.thread_cluster_dims>,
+        to_sequence_v<B_BLOCK_TRANSFER.thread_cluster_order>,
+        to_sequence_v<B_BLOCK_TRANSFER.src_access_order>,
+        B_BLOCK_TRANSFER.src_vector_dim,
+        B_BLOCK_TRANSFER.src_scalar_per_vector,
+        B_BLOCK_TRANSFER.lds_dst_scalar_per_vector,
+        B_BLOCK_TRANSFER.lds_padding,
+        C_BLOCK_TRANSFER.m_per_wave_per_shuffle,
+        C_BLOCK_TRANSFER.n_per_wave_per_shuffle,
+        to_sequence_v<C_BLOCK_TRANSFER.thread_cluster_dims>,
+        C_BLOCK_TRANSFER.scalar_per_vector,
+        BLOCK_GEMM.scheduler,
+        BLOCK_GEMM.pipeline_version,
+        typename Types::AComputeType,
+        typename Types::BComputeType,
+        IS_DIRECT_LOAD>;
+};
+
+// Factory specialization for DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle instance
+// of a grouped forward convolution kernel.
+template <ConvSignatureDescriptor auto SIGNATURE,
+          ConvAlgorithmDescriptor auto ALGORITHM,
+          StringLiteral VERSION>
+    requires ConvDirectionIsForward<SIGNATURE> &&
+             ConvDeviceOpIs_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<SIGNATURE>
+struct ConvFactory<SIGNATURE, ALGORITHM, VERSION>
+{
+    static constexpr size_t SPATIAL_DIM = SIGNATURE.spatial_dim;
+    using Layouts       = decltype(factory_internal::GetTensorLayout<SIGNATURE.layout,
+                                                                     SPATIAL_DIM,
+                                                                     ConvDirection::FORWARD>());
+    using Types         = factory_internal::ConvTensorTypes<SIGNATURE.data_type>;
+    using Ops           = factory_internal::ElementwiseOps<SIGNATURE.elementwise_operation>;
+    using AlgorithmType = decltype(ALGORITHM);
+
+    static_assert(SpecifiesThreadBlock<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify thread block info.");
+    static_assert(SpecifiesGridwiseXdlGemm<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify gridwise GEMM info.");
+    static_assert(SpecifiesBlockTransfer<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify block transfer info.");
+    static_assert(SpecifiesLdsTransfer<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify LDS transfer info.");
+    static_assert(
+        SpecifiesThreadClusterAccessOrder<AlgorithmType>,
+        "The convolution algorithm descriptor must specify thread cluster access order info.");
+    static_assert(SpecifiesSourceAccessOrder<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify source access order info.");
+    static_assert(SpecifiesFwdConcSpecialization<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify forward convolution "
+                  "specialization.");
+    static_assert(SpecifiesGemmSpecialization<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify gemm specialization.");
+    static_assert(SpecifiesNumPrefetchStages<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify number of prefetch stages.");
+    static_assert(SpecifiesLoopScheduler<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify loop scheduler.");
+    static_assert(SpecifiesNumGroupsToMerge<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify number of groups to merge.");
+
+    static constexpr auto FWD_CONV_SPECIALIZATION =
+        factory_internal::SetFwdConvSpecialization<ALGORITHM>();
+    static constexpr auto GEMM_SPECIALIZATION =
+        factory_internal::SetGemmSpecialization<ALGORITHM>();
+    static constexpr factory_internal::ConvSpec SPECIALIZATION{.conv_spec = FWD_CONV_SPECIALIZATION,
+                                                               .gemm_spec = GEMM_SPECIALIZATION};
+
+    static constexpr auto LOOP_SCHEDULER = factory_internal::SetLoopScheduler<ALGORITHM>();
+    static constexpr auto BLOCK          = factory_internal::SetThreadBlockInfo<ALGORITHM>();
+    static constexpr auto GRIDWISE_GEMM  = ALGORITHM.gridwise_gemm;
+    static constexpr auto A_BLOCK_TRANSFER =
+        factory_internal::SetFwdConvABlockTransfer<ALGORITHM>();
+    static constexpr auto B_BLOCK_TRANSFER =
+        factory_internal::SetFwdConvBBlockTransfer<ALGORITHM>();
+    static constexpr auto C_BLOCK_TRANSFER =
+        factory_internal::SetCBlockTransfer<SIGNATURE, ALGORITHM>();
+
+    // Check limits for the algorithm parameters.
+    // TODO: Add more limits checks as needed.
+    static_assert(InputVectorTransferLimits<A_BLOCK_TRANSFER>);
+    static_assert(InputVectorTransferLimits<B_BLOCK_TRANSFER>);
+    static_assert(OutputVectorTransferLimits<C_BLOCK_TRANSFER>);
+    static_assert(AccessOrderLimits<A_BLOCK_TRANSFER.thread_cluster_order>);
+    static_assert(AccessOrderLimits<B_BLOCK_TRANSFER.thread_cluster_order>);
+    static_assert(AccessOrderLimits<A_BLOCK_TRANSFER.src_access_order>);
+    static_assert(AccessOrderLimits<B_BLOCK_TRANSFER.src_access_order>);
+
+    // The forward convolution kernel class instance.
+    using Instance = ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<
+        SPATIAL_DIM,
+        typename Layouts::ALayout,
+        typename Layouts::BLayout,
+        typename Layouts::DsLayout,
+        typename Layouts::ELayout,
+        typename Types::ADataType,
+        typename Types::BDataType,
+        typename Types::AccDataType,
+        typename Types::CShuffleDataType,
+        typename Types::DsDataTypes,
+        typename Types::EDataType,
+        typename Ops::AElementwiseOp,
+        typename Ops::BElementwiseOp,
+        typename Ops::CDEElementwiseOp,
+        SPECIALIZATION.conv_spec,
+        SPECIALIZATION.gemm_spec,
+        ALGORITHM.num_gemm_k_prefetch_stages,
+        BLOCK.block_size,
+        BLOCK.per_block.m,
+        BLOCK.per_block.n,
+        BLOCK.per_block.k,
+        GRIDWISE_GEMM.ak1,
+        GRIDWISE_GEMM.bk1,
+        GRIDWISE_GEMM.m_per_xdl,
+        GRIDWISE_GEMM.n_per_xdl,
+        GRIDWISE_GEMM.m_xdl_per_wave,
+        GRIDWISE_GEMM.n_xdl_per_wave,
+        to_sequence_v<A_BLOCK_TRANSFER.thread_cluster_dims>,
+        to_sequence_v<A_BLOCK_TRANSFER.thread_cluster_order>,
+        to_sequence_v<A_BLOCK_TRANSFER.src_access_order>,
+        A_BLOCK_TRANSFER.src_vector_dim,
+        A_BLOCK_TRANSFER.src_scalar_per_vector,
+        A_BLOCK_TRANSFER.lds_dst_scalar_per_vector,
+        A_BLOCK_TRANSFER.lds_padding,
+        to_sequence_v<B_BLOCK_TRANSFER.thread_cluster_dims>,
+        to_sequence_v<B_BLOCK_TRANSFER.thread_cluster_order>,
+        to_sequence_v<B_BLOCK_TRANSFER.src_access_order>,
+        B_BLOCK_TRANSFER.src_vector_dim,
+        B_BLOCK_TRANSFER.src_scalar_per_vector,
+        B_BLOCK_TRANSFER.lds_dst_scalar_per_vector,
+        B_BLOCK_TRANSFER.lds_padding,
+        C_BLOCK_TRANSFER.m_per_wave_per_shuffle,
+        C_BLOCK_TRANSFER.n_per_wave_per_shuffle,
+        to_sequence_v<C_BLOCK_TRANSFER.thread_cluster_dims>,
+        C_BLOCK_TRANSFER.scalar_per_vector,
+        typename Types::AComputeType,
+        typename Types::BComputeType,
+        LOOP_SCHEDULER,
+        ALGORITHM.num_groups_to_merge>;
+};
+
+// Factory specialization for DeviceGroupedConvFwdMultipleD_Wmma_CShuffle instance
+// of a grouped forward convolution kernel.
+template <ConvSignatureDescriptor auto SIGNATURE,
+          ConvAlgorithmDescriptor auto ALGORITHM,
+          StringLiteral VERSION>
+    requires ConvDirectionIsForward<SIGNATURE> &&
+             ConvDeviceOpIs_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle<SIGNATURE>
+struct ConvFactory<SIGNATURE, ALGORITHM, VERSION>
+{
+    static constexpr size_t SPATIAL_DIM = SIGNATURE.spatial_dim;
+    using Layouts       = decltype(factory_internal::GetTensorLayout<SIGNATURE.layout,
+                                                                     SPATIAL_DIM,
+                                                                     ConvDirection::FORWARD>());
+    using Types         = factory_internal::ConvTensorTypes<SIGNATURE.data_type>;
+    using Ops           = factory_internal::ElementwiseOps<SIGNATURE.elementwise_operation>;
+    using AlgorithmType = decltype(ALGORITHM);
+
+    static_assert(SpecifiesThreadBlock<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify thread block info.");
+    static_assert(SpecifiesGridwiseWmmaGemm<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify gridwise GEMM info.");
+    static_assert(SpecifiesBlockTransfer<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify block transfer info.");
+    static_assert(SpecifiesLdsTransfer<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify LDS transfer info.");
+    static_assert(
+        SpecifiesThreadClusterAccessOrder<AlgorithmType>,
+        "The convolution algorithm descriptor must specify thread cluster access order info.");
+    static_assert(SpecifiesSourceAccessOrder<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify source access order info.");
+    static_assert(SpecifiesFwdConcSpecialization<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify forward convolution "
+                  "specialization.");
+    static_assert(SpecifiesNumPrefetchStages<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify number of prefetch stages.");
+    static_assert(SpecifiesLoopScheduler<AlgorithmType>,
+                  "The convolution algorithm descriptor must specify loop scheduler.");
+
+    static constexpr auto FWD_CONV_SPECIALIZATION =
+        factory_internal::SetFwdConvSpecialization<ALGORITHM>();
+    static constexpr auto GEMM_SPECIALIZATION =
+        factory_internal::SetGemmSpecialization<ALGORITHM>();
+    static constexpr factory_internal::ConvSpec SPECIALIZATION{.conv_spec = FWD_CONV_SPECIALIZATION,
+                                                               .gemm_spec = GEMM_SPECIALIZATION};
+
+    static constexpr auto LOOP_SCHEDULER = factory_internal::SetLoopScheduler<ALGORITHM>();
+    static constexpr auto BLOCK          = factory_internal::SetThreadBlockInfo<ALGORITHM>();
+    static constexpr auto GRIDWISE_GEMM  = ALGORITHM.gridwise_gemm;
+    static constexpr auto GRIDWISE_GEMM_PIPELINE_VERSION =
+        factory_internal::SetGridwiseGemmPipelineVersion<ALGORITHM>();
+    static constexpr auto A_BLOCK_TRANSFER =
+        factory_internal::SetFwdConvABlockTransfer<ALGORITHM>();
+    static constexpr auto B_BLOCK_TRANSFER =
+        factory_internal::SetFwdConvBBlockTransfer<ALGORITHM>();
+    static constexpr auto C_BLOCK_TRANSFER =
+        factory_internal::SetCBlockTransfer<SIGNATURE, ALGORITHM>();
+
+    // Check limits for the algorithm parameters.
+    // TODO: Add more limits checks as needed.
+    static_assert(InputVectorTransferLimits<A_BLOCK_TRANSFER>);
+    static_assert(InputVectorTransferLimits<B_BLOCK_TRANSFER>);
+    static_assert(OutputVectorTransferLimits<C_BLOCK_TRANSFER>);
+    static_assert(AccessOrderLimits<A_BLOCK_TRANSFER.thread_cluster_order>);
+    static_assert(AccessOrderLimits<B_BLOCK_TRANSFER.thread_cluster_order>);
+    static_assert(AccessOrderLimits<A_BLOCK_TRANSFER.src_access_order>);
+    static_assert(AccessOrderLimits<B_BLOCK_TRANSFER.src_access_order>);
+
+    // The forward convolution kernel class instance.
+    using Instance = ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD_Wmma_CShuffle<
+        SPATIAL_DIM,
+        typename Layouts::ALayout,
+        typename Layouts::BLayout,
+        typename Layouts::DsLayout,
+        typename Layouts::ELayout,
+        typename Types::ADataType,
+        typename Types::BDataType,
+        typename Types::AccDataType,
+        typename Types::CShuffleDataType,
+        typename Types::DsDataTypes,
+        typename Types::EDataType,
+        typename Ops::AElementwiseOp,
+        typename Ops::BElementwiseOp,
+        typename Ops::CDEElementwiseOp,
+        SPECIALIZATION.conv_spec,
+        SPECIALIZATION.gemm_spec,
+        ALGORITHM.num_gemm_k_prefetch_stages,
+        BLOCK.block_size,
+        BLOCK.per_block.m,
+        BLOCK.per_block.n,
+        BLOCK.per_block.k,
+        GRIDWISE_GEMM.k1,
+        GRIDWISE_GEMM.m_per_wmma,
+        GRIDWISE_GEMM.n_per_wmma,
+        GRIDWISE_GEMM.m_wmma_per_wave,
+        GRIDWISE_GEMM.n_wmma_per_wave,
+        to_sequence_v<A_BLOCK_TRANSFER.thread_cluster_dims>,
+        to_sequence_v<A_BLOCK_TRANSFER.thread_cluster_order>,
+        to_sequence_v<A_BLOCK_TRANSFER.src_access_order>,
+        A_BLOCK_TRANSFER.src_vector_dim,
+        A_BLOCK_TRANSFER.src_scalar_per_vector,
+        A_BLOCK_TRANSFER.lds_dst_scalar_per_vector,
+        A_BLOCK_TRANSFER.lds_padding,
+        to_sequence_v<B_BLOCK_TRANSFER.thread_cluster_dims>,
+        to_sequence_v<B_BLOCK_TRANSFER.thread_cluster_order>,
+        to_sequence_v<B_BLOCK_TRANSFER.src_access_order>,
+        B_BLOCK_TRANSFER.src_vector_dim,
+        B_BLOCK_TRANSFER.src_scalar_per_vector,
+        B_BLOCK_TRANSFER.lds_dst_scalar_per_vector,
+        B_BLOCK_TRANSFER.lds_padding,
+        C_BLOCK_TRANSFER.m_per_wave_per_shuffle,
+        C_BLOCK_TRANSFER.n_per_wave_per_shuffle,
+        to_sequence_v<C_BLOCK_TRANSFER.thread_cluster_dims>,
+        C_BLOCK_TRANSFER.scalar_per_vector,
+        LOOP_SCHEDULER,
+        GRIDWISE_GEMM_PIPELINE_VERSION>;
 };

 } // namespace ck_tile::builder
--- a/experimental/builder/include/ck_tile/builder/types.hpp
+++ b/experimental/builder/include/ck_tile/builder/types.hpp
@@ -138,6 +138,45 @@ enum class BlockGemmPipelineVersion
    V5
 };

+enum struct BlockGemmPipelineScheduler
+{
+    INTRAWAVE,
+    INTERWAVE,
+};
+
+// Enums for the gridwise GEMM pipeline versions.
+enum class GridwiseGemmPipelineVersion
+{
+    V1,
+    V2,
+    V3, // Only used in stream-K implementation
+    V4,
+    WEIGHT_ONLY
+};
+
+// Enums for the GEMM specialization.
+enum struct GemmSpecialization
+{
+    // Gemm
+    Default,
+    MPadding,
+    NPadding,
+    KPadding,
+    MNPadding,
+    MKPadding,
+    NKPadding,
+    MNKPadding,
+    // Gemm + Gemm
+    OPadding,
+    MOPadding,
+    NOPadding,
+    KOPadding,
+    MNOPadding,
+    MKOPadding,
+    NKOPadding,
+    MNKOPadding
+};
+
 // Enums for the forward convolution specialization.
 enum class ConvFwdSpecialization
 {
@@ -147,4 +186,10 @@ enum class ConvFwdSpecialization
    FILTER_3x3
 };

+enum class LoopScheduler
+{
+    DEFAULT,
+    INTERWAVE
+};
+
 } // namespace ck_tile::builder
--- a/experimental/builder/test/CMakeLists.txt
+++ b/experimental/builder/test/CMakeLists.txt
@@ -35,7 +35,9 @@ add_ck_builder_test(test_ckb_get_instance_string
 # Testing the fwd convolution builder requires kernel compilation.
 # To enable parallel compilation, the individual tests are split into separate files.
 add_ck_builder_test(test_ckb_build_fwd_instances
-    conv/test_ckb_conv_fwd_1d_bf16.cpp    
+    conv/test_ckb_conv_fwd_1d_fp16.cpp
+    conv/test_ckb_conv_fwd_1d_bf16.cpp
+    conv/test_ckb_conv_fwd_1d_i8.cpp    
    conv/test_ckb_conv_fwd_2d_bf16.cpp
    conv/test_ckb_conv_fwd_2d_fp16.cpp
    conv/test_ckb_conv_fwd_2d_fp32.cpp
--- a/experimental/builder/test/conv/test_ckb_conv_fwd_1d_bf16.cpp
+++ b/experimental/builder/test/conv/test_ckb_conv_fwd_1d_bf16.cpp
@@ -21,10 +21,11 @@ TEST(FwdConvInstances,
    constexpr ThreadBlock FwdThreadBlock{.block_size = 256,
                                         .tile_size  = {.m = 256, .n = 256, .k = 32}};

-    run_test<FwdConvSignature,
-             FwdThreadBlock,
-             BlockGemmPipelineVersion::V2,
-             ConvFwdSpecialization::FILTER_1X1_STRIDE1_PAD0>();
+    run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3<
+        FwdConvSignature,
+        FwdThreadBlock,
+        BlockGemmPipelineVersion::V2,
+        ConvFwdSpecialization::FILTER_1X1_STRIDE1_PAD0>();
 }

 } // namespace ck_tile::builder::testing
--- a/experimental/builder/test/conv/test_ckb_conv_fwd_1d_fp16.cpp
+++ b/experimental/builder/test/conv/test_ckb_conv_fwd_1d_fp16.cpp
@@ -0,0 +1,28 @@
+#include "utils/ckb_conv_test_common.hpp"
+
+using namespace ck_tile::builder::test_utils;
+
+namespace ck_tile::builder::testing {
+
+// 1D FP16 (channels-last) with DEFAULT specialization
+TEST(FwdConvInstances,
+     Create_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_Instance_1D_FP16_ChannelsFirst_scale)
+{
+    constexpr ConvSignature FwdConvSignature{
+        .spatial_dim           = 1,
+        .direction             = ConvDirection::FORWARD,
+        .layout                = GroupConvLayout1D::NWGC_GKXC_NWGK,
+        .data_type             = DataType::FP16,
+        .elementwise_operation = ElementwiseOperation::PASS_THROUGH,
+        .device_operation =
+            FwdGroupConvDeviceOperation::DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle};
+
+    constexpr ThreadBlock FwdThreadBlock{.block_size = 64,
+                                         .tile_size  = {.m = 64, .n = 32, .k = 32}};
+
+    run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<FwdConvSignature,
+                                                          FwdThreadBlock,
+                                                          ConvFwdSpecialization::DEFAULT>();
+}
+
+} // namespace ck_tile::builder::testing
--- a/experimental/builder/test/conv/test_ckb_conv_fwd_1d_i8.cpp
+++ b/experimental/builder/test/conv/test_ckb_conv_fwd_1d_i8.cpp
@@ -0,0 +1,28 @@
+#include "utils/ckb_conv_test_common.hpp"
+
+using namespace ck_tile::builder::test_utils;
+
+namespace ck_tile::builder::testing {
+
+// 1D I8 (channels-last) with and DEFAULT specialization
+TEST(FwdConvInstances,
+     Create_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle_Instance_1D_FP32_ChannelsFirst_scale)
+{
+    constexpr ConvSignature FwdConvSignature{
+        .spatial_dim           = 1,
+        .direction             = ConvDirection::FORWARD,
+        .layout                = GroupConvLayout1D::GNWC_GKXC_GNWK,
+        .data_type             = DataType::I8,
+        .elementwise_operation = ElementwiseOperation::PASS_THROUGH,
+        .device_operation =
+            FwdGroupConvDeviceOperation::DeviceGroupedConvFwdMultipleD_Wmma_CShuffle};
+
+    constexpr ThreadBlock FwdThreadBlock{.block_size = 128,
+                                         .tile_size  = {.m = 64, .n = 64, .k = 64}};
+
+    run_test_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle<FwdConvSignature,
+                                                         FwdThreadBlock,
+                                                         ConvFwdSpecialization::DEFAULT>();
+}
+
+} // namespace ck_tile::builder::testing
--- a/experimental/builder/test/conv/test_ckb_conv_fwd_2d_bf16.cpp
+++ b/experimental/builder/test/conv/test_ckb_conv_fwd_2d_bf16.cpp
@@ -20,10 +20,10 @@ TEST(FwdConvInstances,
    constexpr ThreadBlock FwdThreadBlock{.block_size = 256,
                                         .tile_size  = {.m = 256, .n = 256, .k = 32}};

-    run_test<FwdConvSignature,
-             FwdThreadBlock,
-             BlockGemmPipelineVersion::V1,
-             ConvFwdSpecialization::DEFAULT>();
+    run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3<FwdConvSignature,
+                                                             FwdThreadBlock,
+                                                             BlockGemmPipelineVersion::V1,
+                                                             ConvFwdSpecialization::DEFAULT>();
 }

 // 2D BF16 NHWGC (channels-last) with Pipeline V5 and FILTER_3x3
@@ -42,10 +42,10 @@ TEST(FwdConvInstances,
    constexpr ThreadBlock FwdThreadBlock{.block_size = 256,
                                         .tile_size  = {.m = 256, .n = 256, .k = 32}};

-    run_test<FwdConvSignature,
-             FwdThreadBlock,
-             BlockGemmPipelineVersion::V5,
-             ConvFwdSpecialization::FILTER_3x3>();
+    run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3<FwdConvSignature,
+                                                             FwdThreadBlock,
+                                                             BlockGemmPipelineVersion::V5,
+                                                             ConvFwdSpecialization::FILTER_3x3>();
 }

 } // namespace ck_tile::builder::testing
--- a/experimental/builder/test/conv/test_ckb_conv_fwd_2d_fp16.cpp
+++ b/experimental/builder/test/conv/test_ckb_conv_fwd_2d_fp16.cpp
@@ -19,10 +19,11 @@ TEST(FwdConvInstances,
    constexpr ThreadBlock FwdThreadBlock{.block_size = 256,
                                         .tile_size  = {.m = 256, .n = 256, .k = 32}};

-    run_test<FwdConvSignature,
-             FwdThreadBlock,
-             BlockGemmPipelineVersion::V3,
-             ConvFwdSpecialization::FILTER_1X1_PAD0>();
+    run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3<
+        FwdConvSignature,
+        FwdThreadBlock,
+        BlockGemmPipelineVersion::V3,
+        ConvFwdSpecialization::FILTER_1X1_PAD0>();
 }

 } // namespace ck_tile::builder::testing
--- a/experimental/builder/test/conv/test_ckb_conv_fwd_2d_fp32.cpp
+++ b/experimental/builder/test/conv/test_ckb_conv_fwd_2d_fp32.cpp
@@ -19,10 +19,11 @@ TEST(FwdConvInstances,
    constexpr ThreadBlock FwdThreadBlock{.block_size = 256,
                                         .tile_size  = {.m = 128, .n = 128, .k = 32}};

-    run_test<FwdConvSignature,
-             FwdThreadBlock,
-             BlockGemmPipelineVersion::V4,
-             ConvFwdSpecialization::FILTER_1X1_STRIDE1_PAD0>();
+    run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3<
+        FwdConvSignature,
+        FwdThreadBlock,
+        BlockGemmPipelineVersion::V4,
+        ConvFwdSpecialization::FILTER_1X1_STRIDE1_PAD0>();
 }

 } // namespace ck_tile::builder::testing
--- a/experimental/builder/test/conv/test_ckb_conv_fwd_3d_bf16.cpp
+++ b/experimental/builder/test/conv/test_ckb_conv_fwd_3d_bf16.cpp
@@ -20,10 +20,10 @@ TEST(FwdConvInstances,
    constexpr ThreadBlock FwdThreadBlock{.block_size = 256,
                                         .tile_size  = {.m = 256, .n = 256, .k = 32}};

-    run_test<FwdConvSignature,
-             FwdThreadBlock,
-             BlockGemmPipelineVersion::V3,
-             ConvFwdSpecialization::DEFAULT>();
+    run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3<FwdConvSignature,
+                                                             FwdThreadBlock,
+                                                             BlockGemmPipelineVersion::V3,
+                                                             ConvFwdSpecialization::DEFAULT>();
 }

 } // namespace ck_tile::builder::testing
--- a/experimental/builder/test/conv/test_ckb_conv_fwd_3d_fp16.cpp
+++ b/experimental/builder/test/conv/test_ckb_conv_fwd_3d_fp16.cpp
@@ -20,10 +20,11 @@ TEST(FwdConvInstances,
    constexpr ThreadBlock FwdThreadBlock{.block_size = 256,
                                         .tile_size  = {.m = 128, .n = 128, .k = 32}};

-    run_test<FwdConvSignature,
-             FwdThreadBlock,
-             BlockGemmPipelineVersion::V4,
-             ConvFwdSpecialization::FILTER_1X1_PAD0>();
+    run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3<
+        FwdConvSignature,
+        FwdThreadBlock,
+        BlockGemmPipelineVersion::V4,
+        ConvFwdSpecialization::FILTER_1X1_PAD0>();
 }

 } // namespace ck_tile::builder::testing
--- a/experimental/builder/test/conv/test_ckb_conv_fwd_3d_fp32.cpp
+++ b/experimental/builder/test/conv/test_ckb_conv_fwd_3d_fp32.cpp
@@ -20,10 +20,11 @@ TEST(FwdConvInstances,
    constexpr ThreadBlock FwdThreadBlock{.block_size = 256,
                                         .tile_size  = {.m = 128, .n = 128, .k = 32}};

-    run_test<FwdConvSignature,
-             FwdThreadBlock,
-             BlockGemmPipelineVersion::V1,
-             ConvFwdSpecialization::FILTER_1X1_PAD0>();
+    run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3<
+        FwdConvSignature,
+        FwdThreadBlock,
+        BlockGemmPipelineVersion::V1,
+        ConvFwdSpecialization::FILTER_1X1_PAD0>();
 }

 } // namespace ck_tile::builder::testing
--- a/experimental/builder/test/impl/conv_algorithm_types.hpp
+++ b/experimental/builder/test/impl/conv_algorithm_types.hpp
@@ -28,8 +28,8 @@ struct ThreadBlock
 };
 static_assert(ckb::ThreadBlockDescriptor<ThreadBlock>);

-// Describe gridwise GEMM parameters.
-struct GridwiseGemm
+// Describe gridwise XDL GEMM parameters.
+struct GridwiseXdlGemm
 {
    // NOTE: ak1 and bk1 are difficult to verify in the kernel instantiation!!!
    size_t ak1            = 0;
@@ -39,7 +39,26 @@ struct GridwiseGemm
    size_t m_xdl_per_wave = 0;
    size_t n_xdl_per_wave = 0;
 };
-static_assert(ckb::GridwiseGemmDescriptor<GridwiseGemm>);
+static_assert(ckb::GridwiseXdlGemmDescriptor<GridwiseXdlGemm>);
+
+// Describe gridwise WMMA GEMM parameters.
+struct GridwiseWmmaGemm
+{
+    size_t k1              = 0;
+    size_t m_per_wmma      = 0;
+    size_t n_per_wmma      = 0;
+    size_t m_wmma_per_wave = 0;
+    size_t n_wmma_per_wave = 0;
+    GridwiseGemmPipelineVersion pipeline_version;
+};
+static_assert(ckb::GridwiseWmmaGemmDescriptor<GridwiseWmmaGemm>);
+
+struct BlockGemm
+{
+    BlockGemmPipelineVersion pipeline_version;
+    BlockGemmPipelineScheduler scheduler;
+};
+static_assert(ckb::BlockGemmDescriptor<BlockGemm>);

 // Describe Aand B block transfer thread cluster lengths.
 struct BlockTransfer
@@ -72,8 +91,8 @@ static_assert(LdsTransferDescriptor<LdsTransfer>);

 struct Epilogue
 {
-    size_t m_xdl_per_wave_per_shuffle;
-    size_t n_xdl_per_wave_per_shuffle;
+    size_t m_per_wave_per_shuffle;
+    size_t n_per_wave_per_shuffle;
    size_t scalar_per_vector;
 };
 static_assert(EpilogueDescriptor<Epilogue>);
@@ -98,22 +117,101 @@ struct BlockTransferABC
    AccessOrder src_access_order_b;
 };

-struct ConvAlgorithm
+struct ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3
 {
    ThreadBlock thread_block;
-    GridwiseGemm gridwise_gemm;
+    GridwiseXdlGemm gridwise_gemm;
    BlockTransferABC block_transfer;
-    BlockGemmPipelineVersion pipeline_version;
    ConvFwdSpecialization fwd_specialization;
+    GemmSpecialization gemm_specialization;
+    BlockGemm block_gemm;
 };
-static_assert(ckb::ConvAlgorithmDescriptor<ConvAlgorithm>);
-static_assert(ckb::SpecifiesThreadBlock<ConvAlgorithm>);
-static_assert(ckb::SpecifiesGridwiseGemm<ConvAlgorithm>);
-static_assert(ckb::SpecifiesBlockTransfer<ConvAlgorithm>);
-static_assert(ckb::SpecifiesLdsTransfer<ConvAlgorithm>);
-static_assert(ckb::SpecifiesThreadClusterAccessOrder<ConvAlgorithm>);
-static_assert(ckb::SpecifiesSourceAccessOrder<ConvAlgorithm>);
-static_assert(ckb::SpecifiesGemmPipelineVersion<ConvAlgorithm>);
-static_assert(ckb::SpecifiesFwdConcSpecialization<ConvAlgorithm>);
+static_assert(
+    ckb::ConvAlgorithmDescriptor<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3>);
+static_assert(
+    ckb::SpecifiesThreadBlock<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3>);
+static_assert(
+    ckb::SpecifiesGridwiseXdlGemm<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3>);
+static_assert(
+    ckb::SpecifiesBlockTransfer<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3>);
+static_assert(
+    ckb::SpecifiesLdsTransfer<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3>);
+static_assert(ckb::SpecifiesThreadClusterAccessOrder<
+              ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3>);
+static_assert(
+    ckb::SpecifiesSourceAccessOrder<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3>);
+static_assert(ckb::SpecifiesFwdConcSpecialization<
+              ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3>);
+static_assert(
+    ckb::SpecifiesBlockGemm<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3>);
+static_assert(ckb::SpecifiesGemmSpecialization<
+              ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3>);
+
+struct ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle
+{
+    ThreadBlock thread_block;
+    GridwiseXdlGemm gridwise_gemm;
+    BlockTransferABC block_transfer;
+    ConvFwdSpecialization fwd_specialization;
+    GemmSpecialization gemm_specialization;
+    size_t num_gemm_k_prefetch_stages;
+    size_t num_groups_to_merge;
+    LoopScheduler loop_scheduler;
+};
+static_assert(
+    ckb::ConvAlgorithmDescriptor<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+static_assert(
+    ckb::SpecifiesThreadBlock<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+static_assert(
+    ckb::SpecifiesGridwiseXdlGemm<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+static_assert(
+    ckb::SpecifiesBlockTransfer<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+static_assert(
+    ckb::SpecifiesLdsTransfer<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+static_assert(ckb::SpecifiesThreadClusterAccessOrder<
+              ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+static_assert(
+    ckb::SpecifiesSourceAccessOrder<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+static_assert(ckb::SpecifiesFwdConcSpecialization<
+              ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+static_assert(
+    ckb::SpecifiesNumPrefetchStages<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+static_assert(
+    ckb::SpecifiesGemmSpecialization<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+static_assert(
+    ckb::SpecifiesLoopScheduler<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+static_assert(
+    ckb::SpecifiesNumGroupsToMerge<ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle>);
+
+struct ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle
+{
+    ThreadBlock thread_block;
+    GridwiseWmmaGemm gridwise_gemm;
+    BlockTransferABC block_transfer;
+    ConvFwdSpecialization fwd_specialization;
+    GemmSpecialization gemm_specialization;
+    size_t num_gemm_k_prefetch_stages;
+    LoopScheduler loop_scheduler;
+};
+static_assert(
+    ckb::ConvAlgorithmDescriptor<ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle>);
+static_assert(ckb::SpecifiesThreadBlock<ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle>);
+static_assert(
+    ckb::SpecifiesGridwiseWmmaGemm<ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle>);
+static_assert(
+    ckb::SpecifiesBlockTransfer<ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle>);
+static_assert(ckb::SpecifiesLdsTransfer<ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle>);
+static_assert(ckb::SpecifiesThreadClusterAccessOrder<
+              ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle>);
+static_assert(
+    ckb::SpecifiesSourceAccessOrder<ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle>);
+static_assert(
+    ckb::SpecifiesFwdConcSpecialization<ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle>);
+static_assert(
+    ckb::SpecifiesNumPrefetchStages<ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle>);
+static_assert(
+    ckb::SpecifiesGemmSpecialization<ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle>);
+static_assert(
+    ckb::SpecifiesLoopScheduler<ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle>);

 } // namespace ck_tile::builder::test
--- a/experimental/builder/test/utils/ckb_conv_test_common.hpp
+++ b/experimental/builder/test/utils/ckb_conv_test_common.hpp
@@ -1,3 +1,6 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2025, Advanced Micro Devices, Inc. All rights reserved.
+
 #pragma once

 #include <gtest/gtest.h>
@@ -15,14 +18,14 @@ template <ConvSignature FwdConvSignature,
          ThreadBlock FwdThreadBlock,
          BlockGemmPipelineVersion FwdPipelineVersion,
          ConvFwdSpecialization FwdConvSpecialization>
-constexpr void run_test()
+constexpr void run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3()
 {
-    constexpr GridwiseGemm FwdGemmParams{.ak1            = 8,
-                                         .bk1            = 8,
-                                         .m_per_xdl      = 32,
-                                         .n_per_xdl      = 32,
-                                         .m_xdl_per_wave = 4,
-                                         .n_xdl_per_wave = 4};
+    constexpr GridwiseXdlGemm FwdGemmParams{.ak1            = 8,
+                                            .bk1            = 8,
+                                            .m_per_xdl      = 32,
+                                            .n_per_xdl      = 32,
+                                            .m_xdl_per_wave = 4,
+                                            .n_xdl_per_wave = 4};

    constexpr BlockTransferABC FwdBlockTransfer{.block_transfer_a = {.k0 = 4, .m_n = 64, .k1 = 1},
                                                .block_transfer_b = {.k0 = 4, .m_n = 64, .k1 = 1},
@@ -40,19 +43,24 @@ constexpr void run_test()
                                                                          .lds_dst_scalar_per_vector = 8,
                                                                          .is_direct_load = false,
                                                                          .lds_padding    = false},
-                                                .epilogue_c = {.m_xdl_per_wave_per_shuffle = 1,
-                                                               .n_xdl_per_wave_per_shuffle = 1,
-                                                               .scalar_per_vector          = 8},
+                                                .epilogue_c = {.m_per_wave_per_shuffle = 1,
+                                                               .n_per_wave_per_shuffle = 1,
+                                                               .scalar_per_vector      = 8},
                                                .block_transfer_access_order_a = {1, 0, 2},
                                                .block_transfer_access_order_b = {1, 0, 2},
                                                .src_access_order_a            = {1, 0, 2},
                                                .src_access_order_b            = {1, 0, 2}};

-    constexpr ConvAlgorithm FwdConvAlgorithm{.thread_block       = FwdThreadBlock,
-                                             .gridwise_gemm      = FwdGemmParams,
-                                             .block_transfer     = FwdBlockTransfer,
-                                             .pipeline_version   = FwdPipelineVersion,
-                                             .fwd_specialization = FwdConvSpecialization};
+    constexpr BlockGemm BlockGemmDesc = {.pipeline_version = FwdPipelineVersion,
+                                         .scheduler        = BlockGemmPipelineScheduler::INTRAWAVE};
+
+    constexpr ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3 FwdConvAlgorithm{
+        .thread_block        = FwdThreadBlock,
+        .gridwise_gemm       = FwdGemmParams,
+        .block_transfer      = FwdBlockTransfer,
+        .fwd_specialization  = FwdConvSpecialization,
+        .gemm_specialization = GemmSpecialization::MNKPadding,
+        .block_gemm          = BlockGemmDesc};

    using Builder = ConvBuilder<FwdConvSignature, FwdConvAlgorithm>;

@@ -88,4 +96,143 @@ constexpr void run_test()
    EXPECT_NE(invoker_ptr, nullptr);
 }

+template <ConvSignature FwdConvSignature,
+          ThreadBlock FwdThreadBlock,
+          ConvFwdSpecialization FwdConvSpecialization>
+constexpr void run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle()
+{
+    constexpr GridwiseXdlGemm FwdGemmParams{.ak1            = 8,
+                                            .bk1            = 8,
+                                            .m_per_xdl      = 32,
+                                            .n_per_xdl      = 32,
+                                            .m_xdl_per_wave = 2,
+                                            .n_xdl_per_wave = 1};
+
+    constexpr BlockTransferABC FwdBlockTransfer{.block_transfer_a = {.k0 = 4, .m_n = 16, .k1 = 1},
+                                                .block_transfer_b = {.k0 = 4, .m_n = 16, .k1 = 1},
+                                                .thread_cluster_dims_c = {.m_block        = 1,
+                                                                          .m_wave_per_xdl = 16,
+                                                                          .n_block        = 1,
+                                                                          .n_wave_per_xdl = 4},
+                                                .lds_transfer_a        = {.src_vector_dim            = 2,
+                                                                          .src_scalar_per_vector     = 8,
+                                                                          .lds_dst_scalar_per_vector = 8,
+                                                                          .is_direct_load = false,
+                                                                          .lds_padding    = true},
+                                                .lds_transfer_b        = {.src_vector_dim            = 2,
+                                                                          .src_scalar_per_vector     = 8,
+                                                                          .lds_dst_scalar_per_vector = 8,
+                                                                          .is_direct_load = false,
+                                                                          .lds_padding    = true},
+                                                .epilogue_c = {.m_per_wave_per_shuffle = 1,
+                                                               .n_per_wave_per_shuffle = 1,
+                                                               .scalar_per_vector      = 8},
+                                                .block_transfer_access_order_a = {1, 0, 2},
+                                                .block_transfer_access_order_b = {1, 0, 2},
+                                                .src_access_order_a            = {1, 0, 2},
+                                                .src_access_order_b            = {1, 0, 2}};
+
+    constexpr ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle FwdConvAlgorithm{
+        .thread_block               = FwdThreadBlock,
+        .gridwise_gemm              = FwdGemmParams,
+        .block_transfer             = FwdBlockTransfer,
+        .fwd_specialization         = FwdConvSpecialization,
+        .gemm_specialization        = GemmSpecialization::MNKPadding,
+        .num_gemm_k_prefetch_stages = 1,
+        .num_groups_to_merge        = 2,
+        .loop_scheduler             = LoopScheduler::DEFAULT};
+
+    using Builder = ConvBuilder<FwdConvSignature, FwdConvAlgorithm>;
+
+    auto instance = typename Builder::Instance{};
+
+    const auto kernel_string = instance.GetTypeString();
+    std::cout << "Generated kernel: " << kernel_string << std::endl;
+    EXPECT_GT(kernel_string.size(), 0);
+
+    EXPECT_TRUE(kernel_string.starts_with("DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle"));
+
+    // Verify specialization is correct
+    if(FwdConvSpecialization == ConvFwdSpecialization::DEFAULT)
+        EXPECT_TRUE(kernel_string.find("Default") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_1X1_PAD0)
+        EXPECT_TRUE(kernel_string.find("Filter1x1Pad0") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_1X1_STRIDE1_PAD0)
+        EXPECT_TRUE(kernel_string.find("Filter1x1Stride1Pad0") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_3x3)
+        EXPECT_TRUE(kernel_string.find("Filter3x3") != std::string::npos);
+
+    const auto invoker_ptr = instance.MakeInvokerPointer();
+    EXPECT_NE(invoker_ptr, nullptr);
+}
+
+template <ConvSignature FwdConvSignature,
+          ThreadBlock FwdThreadBlock,
+          ConvFwdSpecialization FwdConvSpecialization>
+constexpr void run_test_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle()
+{
+    constexpr GridwiseWmmaGemm FwdGemmParams{.k1               = 8,
+                                             .m_per_wmma       = 32,
+                                             .n_per_wmma       = 32,
+                                             .m_wmma_per_wave  = 2,
+                                             .n_wmma_per_wave  = 1,
+                                             .pipeline_version = GridwiseGemmPipelineVersion::V1};
+
+    constexpr BlockTransferABC FwdBlockTransfer{.block_transfer_a = {.k0 = 4, .m_n = 32, .k1 = 1},
+                                                .block_transfer_b = {.k0 = 4, .m_n = 32, .k1 = 1},
+                                                .thread_cluster_dims_c = {.m_block        = 1,
+                                                                          .m_wave_per_xdl = 32,
+                                                                          .n_block        = 1,
+                                                                          .n_wave_per_xdl = 4},
+                                                .lds_transfer_a        = {.src_vector_dim            = 2,
+                                                                          .src_scalar_per_vector     = 16,
+                                                                          .lds_dst_scalar_per_vector = 16,
+                                                                          .is_direct_load = false,
+                                                                          .lds_padding    = true},
+                                                .lds_transfer_b        = {.src_vector_dim            = 2,
+                                                                          .src_scalar_per_vector     = 16,
+                                                                          .lds_dst_scalar_per_vector = 16,
+                                                                          .is_direct_load = false,
+                                                                          .lds_padding    = true},
+                                                .epilogue_c = {.m_per_wave_per_shuffle = 1,
+                                                               .n_per_wave_per_shuffle = 1,
+                                                               .scalar_per_vector      = 8},
+                                                .block_transfer_access_order_a = {1, 0, 2},
+                                                .block_transfer_access_order_b = {1, 0, 2},
+                                                .src_access_order_a            = {1, 0, 2},
+                                                .src_access_order_b            = {1, 0, 2}};
+
+    constexpr ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle FwdConvAlgorithm{
+        .thread_block               = FwdThreadBlock,
+        .gridwise_gemm              = FwdGemmParams,
+        .block_transfer             = FwdBlockTransfer,
+        .fwd_specialization         = FwdConvSpecialization,
+        .gemm_specialization        = GemmSpecialization::MNKPadding,
+        .num_gemm_k_prefetch_stages = 1,
+        .loop_scheduler             = LoopScheduler::DEFAULT};
+
+    using Builder = ConvBuilder<FwdConvSignature, FwdConvAlgorithm>;
+
+    auto instance = typename Builder::Instance{};
+
+    const auto kernel_string = instance.GetTypeString();
+    std::cout << "Generated kernel: " << kernel_string << std::endl;
+    EXPECT_GT(kernel_string.size(), 0);
+
+    EXPECT_TRUE(kernel_string.starts_with("DeviceGroupedConvFwdMultipleD_Wmma_CShuffle"));
+
+    // Verify specialization is correct
+    if(FwdConvSpecialization == ConvFwdSpecialization::DEFAULT)
+        EXPECT_TRUE(kernel_string.find("Default") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_1X1_PAD0)
+        EXPECT_TRUE(kernel_string.find("Filter1x1Pad0") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_1X1_STRIDE1_PAD0)
+        EXPECT_TRUE(kernel_string.find("Filter1x1Stride1Pad0") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_3x3)
+        EXPECT_TRUE(kernel_string.find("Filter3x3") != std::string::npos);
+
+    const auto invoker_ptr = instance.MakeInvokerPointer();
+    EXPECT_NE(invoker_ptr, nullptr);
+}
+
 } // namespace ck_tile::builder::test_utils