[CK_BUILDER] Add conv factories for DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle and DeviceGroupedConvFwdMultipleD_Wmma_CShuffle (#3138)

* Add device operation to conv signature. Use unions to hold conv layouts and device operations. * Add predicates for all device op instances. * Use the device op signature for validation. * Fix ckb CMakeLists.txt file for tests. * Fix building CK Builder instance traits after the introduction of direct load template parameter in CK. * Fix clang-formatting. * Add factory for DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle device op. * Add conv factory for DeviceGroupedConvFwdMultipleD_Wmma_CShuffle * Rename elements per wave per shuffle member in the epilogue concept. * clang-format * Add concepts and types for optional device op template parameters. * Add optional compute, direct load, and loop scheduler arguments to conv factory. * Add number of groups to merge template parameter. * clang-format.
2026-05-04 21:51:28 +00:00 · 2025-11-03 09:03:25 +02:00
parent 16e85cf179
commit 3ae3992c18
16 changed files with 986 additions and 168 deletions
--- a/experimental/builder/test/utils/ckb_conv_test_common.hpp
+++ b/experimental/builder/test/utils/ckb_conv_test_common.hpp
@@ -1,3 +1,6 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2025, Advanced Micro Devices, Inc. All rights reserved.
+
 #pragma once

 #include <gtest/gtest.h>
@@ -15,14 +18,14 @@ template <ConvSignature FwdConvSignature,
          ThreadBlock FwdThreadBlock,
          BlockGemmPipelineVersion FwdPipelineVersion,
          ConvFwdSpecialization FwdConvSpecialization>
-constexpr void run_test()
+constexpr void run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3()
 {
-    constexpr GridwiseGemm FwdGemmParams{.ak1            = 8,
-                                         .bk1            = 8,
-                                         .m_per_xdl      = 32,
-                                         .n_per_xdl      = 32,
-                                         .m_xdl_per_wave = 4,
-                                         .n_xdl_per_wave = 4};
+    constexpr GridwiseXdlGemm FwdGemmParams{.ak1            = 8,
+                                            .bk1            = 8,
+                                            .m_per_xdl      = 32,
+                                            .n_per_xdl      = 32,
+                                            .m_xdl_per_wave = 4,
+                                            .n_xdl_per_wave = 4};

    constexpr BlockTransferABC FwdBlockTransfer{.block_transfer_a = {.k0 = 4, .m_n = 64, .k1 = 1},
                                                .block_transfer_b = {.k0 = 4, .m_n = 64, .k1 = 1},
@@ -40,19 +43,24 @@ constexpr void run_test()
                                                                          .lds_dst_scalar_per_vector = 8,
                                                                          .is_direct_load = false,
                                                                          .lds_padding    = false},
-                                                .epilogue_c = {.m_xdl_per_wave_per_shuffle = 1,
-                                                               .n_xdl_per_wave_per_shuffle = 1,
-                                                               .scalar_per_vector          = 8},
+                                                .epilogue_c = {.m_per_wave_per_shuffle = 1,
+                                                               .n_per_wave_per_shuffle = 1,
+                                                               .scalar_per_vector      = 8},
                                                .block_transfer_access_order_a = {1, 0, 2},
                                                .block_transfer_access_order_b = {1, 0, 2},
                                                .src_access_order_a            = {1, 0, 2},
                                                .src_access_order_b            = {1, 0, 2}};

-    constexpr ConvAlgorithm FwdConvAlgorithm{.thread_block       = FwdThreadBlock,
-                                             .gridwise_gemm      = FwdGemmParams,
-                                             .block_transfer     = FwdBlockTransfer,
-                                             .pipeline_version   = FwdPipelineVersion,
-                                             .fwd_specialization = FwdConvSpecialization};
+    constexpr BlockGemm BlockGemmDesc = {.pipeline_version = FwdPipelineVersion,
+                                         .scheduler        = BlockGemmPipelineScheduler::INTRAWAVE};
+
+    constexpr ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle_V3 FwdConvAlgorithm{
+        .thread_block        = FwdThreadBlock,
+        .gridwise_gemm       = FwdGemmParams,
+        .block_transfer      = FwdBlockTransfer,
+        .fwd_specialization  = FwdConvSpecialization,
+        .gemm_specialization = GemmSpecialization::MNKPadding,
+        .block_gemm          = BlockGemmDesc};

    using Builder = ConvBuilder<FwdConvSignature, FwdConvAlgorithm>;

@@ -88,4 +96,143 @@ constexpr void run_test()
    EXPECT_NE(invoker_ptr, nullptr);
 }

+template <ConvSignature FwdConvSignature,
+          ThreadBlock FwdThreadBlock,
+          ConvFwdSpecialization FwdConvSpecialization>
+constexpr void run_test_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle()
+{
+    constexpr GridwiseXdlGemm FwdGemmParams{.ak1            = 8,
+                                            .bk1            = 8,
+                                            .m_per_xdl      = 32,
+                                            .n_per_xdl      = 32,
+                                            .m_xdl_per_wave = 2,
+                                            .n_xdl_per_wave = 1};
+
+    constexpr BlockTransferABC FwdBlockTransfer{.block_transfer_a = {.k0 = 4, .m_n = 16, .k1 = 1},
+                                                .block_transfer_b = {.k0 = 4, .m_n = 16, .k1 = 1},
+                                                .thread_cluster_dims_c = {.m_block        = 1,
+                                                                          .m_wave_per_xdl = 16,
+                                                                          .n_block        = 1,
+                                                                          .n_wave_per_xdl = 4},
+                                                .lds_transfer_a        = {.src_vector_dim            = 2,
+                                                                          .src_scalar_per_vector     = 8,
+                                                                          .lds_dst_scalar_per_vector = 8,
+                                                                          .is_direct_load = false,
+                                                                          .lds_padding    = true},
+                                                .lds_transfer_b        = {.src_vector_dim            = 2,
+                                                                          .src_scalar_per_vector     = 8,
+                                                                          .lds_dst_scalar_per_vector = 8,
+                                                                          .is_direct_load = false,
+                                                                          .lds_padding    = true},
+                                                .epilogue_c = {.m_per_wave_per_shuffle = 1,
+                                                               .n_per_wave_per_shuffle = 1,
+                                                               .scalar_per_vector      = 8},
+                                                .block_transfer_access_order_a = {1, 0, 2},
+                                                .block_transfer_access_order_b = {1, 0, 2},
+                                                .src_access_order_a            = {1, 0, 2},
+                                                .src_access_order_b            = {1, 0, 2}};
+
+    constexpr ConvAlgorithm_DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle FwdConvAlgorithm{
+        .thread_block               = FwdThreadBlock,
+        .gridwise_gemm              = FwdGemmParams,
+        .block_transfer             = FwdBlockTransfer,
+        .fwd_specialization         = FwdConvSpecialization,
+        .gemm_specialization        = GemmSpecialization::MNKPadding,
+        .num_gemm_k_prefetch_stages = 1,
+        .num_groups_to_merge        = 2,
+        .loop_scheduler             = LoopScheduler::DEFAULT};
+
+    using Builder = ConvBuilder<FwdConvSignature, FwdConvAlgorithm>;
+
+    auto instance = typename Builder::Instance{};
+
+    const auto kernel_string = instance.GetTypeString();
+    std::cout << "Generated kernel: " << kernel_string << std::endl;
+    EXPECT_GT(kernel_string.size(), 0);
+
+    EXPECT_TRUE(kernel_string.starts_with("DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle"));
+
+    // Verify specialization is correct
+    if(FwdConvSpecialization == ConvFwdSpecialization::DEFAULT)
+        EXPECT_TRUE(kernel_string.find("Default") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_1X1_PAD0)
+        EXPECT_TRUE(kernel_string.find("Filter1x1Pad0") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_1X1_STRIDE1_PAD0)
+        EXPECT_TRUE(kernel_string.find("Filter1x1Stride1Pad0") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_3x3)
+        EXPECT_TRUE(kernel_string.find("Filter3x3") != std::string::npos);
+
+    const auto invoker_ptr = instance.MakeInvokerPointer();
+    EXPECT_NE(invoker_ptr, nullptr);
+}
+
+template <ConvSignature FwdConvSignature,
+          ThreadBlock FwdThreadBlock,
+          ConvFwdSpecialization FwdConvSpecialization>
+constexpr void run_test_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle()
+{
+    constexpr GridwiseWmmaGemm FwdGemmParams{.k1               = 8,
+                                             .m_per_wmma       = 32,
+                                             .n_per_wmma       = 32,
+                                             .m_wmma_per_wave  = 2,
+                                             .n_wmma_per_wave  = 1,
+                                             .pipeline_version = GridwiseGemmPipelineVersion::V1};
+
+    constexpr BlockTransferABC FwdBlockTransfer{.block_transfer_a = {.k0 = 4, .m_n = 32, .k1 = 1},
+                                                .block_transfer_b = {.k0 = 4, .m_n = 32, .k1 = 1},
+                                                .thread_cluster_dims_c = {.m_block        = 1,
+                                                                          .m_wave_per_xdl = 32,
+                                                                          .n_block        = 1,
+                                                                          .n_wave_per_xdl = 4},
+                                                .lds_transfer_a        = {.src_vector_dim            = 2,
+                                                                          .src_scalar_per_vector     = 16,
+                                                                          .lds_dst_scalar_per_vector = 16,
+                                                                          .is_direct_load = false,
+                                                                          .lds_padding    = true},
+                                                .lds_transfer_b        = {.src_vector_dim            = 2,
+                                                                          .src_scalar_per_vector     = 16,
+                                                                          .lds_dst_scalar_per_vector = 16,
+                                                                          .is_direct_load = false,
+                                                                          .lds_padding    = true},
+                                                .epilogue_c = {.m_per_wave_per_shuffle = 1,
+                                                               .n_per_wave_per_shuffle = 1,
+                                                               .scalar_per_vector      = 8},
+                                                .block_transfer_access_order_a = {1, 0, 2},
+                                                .block_transfer_access_order_b = {1, 0, 2},
+                                                .src_access_order_a            = {1, 0, 2},
+                                                .src_access_order_b            = {1, 0, 2}};
+
+    constexpr ConvAlgorithm_DeviceGroupedConvFwdMultipleD_Wmma_CShuffle FwdConvAlgorithm{
+        .thread_block               = FwdThreadBlock,
+        .gridwise_gemm              = FwdGemmParams,
+        .block_transfer             = FwdBlockTransfer,
+        .fwd_specialization         = FwdConvSpecialization,
+        .gemm_specialization        = GemmSpecialization::MNKPadding,
+        .num_gemm_k_prefetch_stages = 1,
+        .loop_scheduler             = LoopScheduler::DEFAULT};
+
+    using Builder = ConvBuilder<FwdConvSignature, FwdConvAlgorithm>;
+
+    auto instance = typename Builder::Instance{};
+
+    const auto kernel_string = instance.GetTypeString();
+    std::cout << "Generated kernel: " << kernel_string << std::endl;
+    EXPECT_GT(kernel_string.size(), 0);
+
+    EXPECT_TRUE(kernel_string.starts_with("DeviceGroupedConvFwdMultipleD_Wmma_CShuffle"));
+
+    // Verify specialization is correct
+    if(FwdConvSpecialization == ConvFwdSpecialization::DEFAULT)
+        EXPECT_TRUE(kernel_string.find("Default") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_1X1_PAD0)
+        EXPECT_TRUE(kernel_string.find("Filter1x1Pad0") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_1X1_STRIDE1_PAD0)
+        EXPECT_TRUE(kernel_string.find("Filter1x1Stride1Pad0") != std::string::npos);
+    else if(FwdConvSpecialization == ConvFwdSpecialization::FILTER_3x3)
+        EXPECT_TRUE(kernel_string.find("Filter3x3") != std::string::npos);
+
+    const auto invoker_ptr = instance.MakeInvokerPointer();
+    EXPECT_NE(invoker_ptr, nullptr);
+}
+
 } // namespace ck_tile::builder::test_utils