[CK_BUILDER] Forward convolution builder improvements (#3179)

Proposed changes Improve the forward convolution builder implementation and addressed leftover feedback left from PR #3138. Main changes Refactored tests such that they reflect better the builder pattern. The templates and types for the convolution algorithm concepts are created via factory that facilitates programmatic creation of the device op instances. Moved tests into anonymous namespace. The convolution factory had lot of if-else constructs when CK Builder types were converted into CK library types. I had initially trouble in using static_assert in the default branch of switch as the static_assert was evaluated at compile time even for valid types. However, if we change the static_assert to throw "<error message>", it will result in a compile-time error only if the default branch is actually hit. This assumes that the function is consteval. Hence, changed all conversions in the convolution factory to use switch, which is more intuitive. Removed the explicit device op definition from convolution signature and the corresponding predicate file. The device ops are defined by the corresponding concepts. This allowed to remove lot of boilerplate code from the convolution factory. Adde inheritance and convolution algorithm specialization to handle device ops that are specialization of a more generic ones. The large tensor support is more naturally expressed by this pattern. Added support for the FP8 data type. * WIP: Builder for expected test results. * Improve ckb fwd conv instance tests. * clang-format * Change if-else statements into switch in conv factory. * Fix clang-formatting. * Removed unnecessary includes. * Added missing copyright. * Remove explicit device op flag from from convolution signature. * Add missing concept. * Fix build. * clang-format * Add test for building conv fwd FP8 instances. * Add missing header to instance traits. * Clean-up recently added instances. * Introduce inheritance and specialization. * Use builder to build conv algorithm templates and types. * clang-format * Fix conv description tests. --------- Co-authored-by: John Shumway <john.shumwayjr@gmail.com>
2026-05-03 21:21:22 +00:00 · 2025-11-13 18:47:25 +02:00
parent ca2ee0eb8a
commit 7d57bc169f
26 changed files with 946 additions and 1439 deletions
--- a/experimental/builder/test/utils/ckb_conv_test_configs.hpp
+++ b/experimental/builder/test/utils/ckb_conv_test_configs.hpp
@@ -0,0 +1,184 @@
+// Copyright (C) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#pragma once
+
+#include "impl/conv_algorithm_types.hpp"
+#include "impl/conv_signature_types.hpp"
+#include "ck_tile/builder/conv_builder.hpp"
+
+namespace ck_tile::builder::test_utils {
+
+using namespace ck_tile::builder;
+using namespace test;
+
+constexpr DlThreadConfig DlThreadConfig_16x2x4x4x1{
+    .k0_per_block = 16, .k1 = 2, .m1_per_thread = 4, .n1_per_thread = 4, .k_per_thread = 1};
+
+constexpr DlThreadCluster DlThreadCluster_8x2{.m1_xs = {8, 2}, .n1_xs = {8, 2}};
+
+constexpr DlBlockTransfer DlBlockTransferAB{.thread_slice_lengths         = {8, 1, 1, 2},
+                                            .thread_cluster_lengths       = {2, 1, 128, 1},
+                                            .thread_cluster_arrange_order = {1, 2, 0, 3},
+                                            .src_access_order             = {1, 2, 0, 3},
+                                            .src_vector_tensor_lengths    = {4, 1, 1, 2},
+                                            .src_vector_tensor_contiguous_dim_order = {1, 2, 0, 3},
+                                            .dst_vector_tensor_lengths              = {1, 1, 1, 2}};
+
+constexpr DlEpilogue DlEpilogueC{.src_dst_access_order  = {0, 1, 2, 3, 4, 5},
+                                 .src_dst_vector_dim    = 5,
+                                 .dst_scalar_per_vector = 4};
+
+constexpr BlockTransferABC FwdBlockTransfer_4x64x1{
+    .block_transfer_a              = {.k0 = 4, .m_n = 64, .k1 = 1},
+    .block_transfer_b              = {.k0 = 4, .m_n = 64, .k1 = 1},
+    .thread_cluster_dims_c         = {.m_block        = 1,
+                                      .m_wave_per_xdl = 32,
+                                      .n_block        = 1,
+                                      .n_wave_per_xdl = 8},
+    .lds_transfer_a                = {.src_vector_dim            = 2,
+                                      .src_scalar_per_vector     = 2,
+                                      .lds_dst_scalar_per_vector = 8,
+                                      .is_direct_load            = false,
+                                      .lds_padding               = false},
+    .lds_transfer_b                = {.src_vector_dim            = 2,
+                                      .src_scalar_per_vector     = 8,
+                                      .lds_dst_scalar_per_vector = 8,
+                                      .is_direct_load            = false,
+                                      .lds_padding               = false},
+    .epilogue_c                    = {.m_per_wave_per_shuffle = 1,
+                                      .n_per_wave_per_shuffle = 1,
+                                      .scalar_per_vector      = 8},
+    .block_transfer_access_order_a = {1, 0, 2},
+    .block_transfer_access_order_b = {1, 0, 2},
+    .src_access_order_a            = {1, 0, 2},
+    .src_access_order_b            = {1, 0, 2}};
+
+constexpr BlockTransferABC FwdBlockTransfer_4x64x1_fp8{
+    .block_transfer_a              = {.k0 = 4, .m_n = 64, .k1 = 1},
+    .block_transfer_b              = {.k0 = 4, .m_n = 64, .k1 = 1},
+    .thread_cluster_dims_c         = {.m_block        = 1,
+                                      .m_wave_per_xdl = 32,
+                                      .n_block        = 1,
+                                      .n_wave_per_xdl = 8},
+    .lds_transfer_a                = {.src_vector_dim            = 2,
+                                      .src_scalar_per_vector     = 8,
+                                      .lds_dst_scalar_per_vector = 8,
+                                      .is_direct_load            = false,
+                                      .lds_padding               = true},
+    .lds_transfer_b                = {.src_vector_dim            = 2,
+                                      .src_scalar_per_vector     = 8,
+                                      .lds_dst_scalar_per_vector = 8,
+                                      .is_direct_load            = false,
+                                      .lds_padding               = true},
+    .epilogue_c                    = {.m_per_wave_per_shuffle = 1,
+                                      .n_per_wave_per_shuffle = 1,
+                                      .scalar_per_vector      = 8},
+    .block_transfer_access_order_a = {1, 0, 2},
+    .block_transfer_access_order_b = {1, 0, 2},
+    .src_access_order_a            = {1, 0, 2},
+    .src_access_order_b            = {1, 0, 2}};
+
+constexpr BlockTransferABC FwdBlockTransfer_4x16x1{
+    .block_transfer_a              = {.k0 = 4, .m_n = 16, .k1 = 1},
+    .block_transfer_b              = {.k0 = 4, .m_n = 16, .k1 = 1},
+    .thread_cluster_dims_c         = {.m_block        = 1,
+                                      .m_wave_per_xdl = 16,
+                                      .n_block        = 1,
+                                      .n_wave_per_xdl = 4},
+    .lds_transfer_a                = {.src_vector_dim            = 2,
+                                      .src_scalar_per_vector     = 8,
+                                      .lds_dst_scalar_per_vector = 8,
+                                      .is_direct_load            = false,
+                                      .lds_padding               = true},
+    .lds_transfer_b                = {.src_vector_dim            = 2,
+                                      .src_scalar_per_vector     = 8,
+                                      .lds_dst_scalar_per_vector = 8,
+                                      .is_direct_load            = false,
+                                      .lds_padding               = true},
+    .epilogue_c                    = {.m_per_wave_per_shuffle = 1,
+                                      .n_per_wave_per_shuffle = 1,
+                                      .scalar_per_vector      = 8},
+    .block_transfer_access_order_a = {1, 0, 2},
+    .block_transfer_access_order_b = {1, 0, 2},
+    .src_access_order_a            = {1, 0, 2},
+    .src_access_order_b            = {1, 0, 2}};
+
+constexpr BlockTransferABC FwdBlockTransfer_4x32x1{
+    .block_transfer_a              = {.k0 = 4, .m_n = 32, .k1 = 1},
+    .block_transfer_b              = {.k0 = 4, .m_n = 32, .k1 = 1},
+    .thread_cluster_dims_c         = {.m_block        = 1,
+                                      .m_wave_per_xdl = 32,
+                                      .n_block        = 1,
+                                      .n_wave_per_xdl = 4},
+    .lds_transfer_a                = {.src_vector_dim            = 2,
+                                      .src_scalar_per_vector     = 16,
+                                      .lds_dst_scalar_per_vector = 16,
+                                      .is_direct_load            = false,
+                                      .lds_padding               = true},
+    .lds_transfer_b                = {.src_vector_dim            = 2,
+                                      .src_scalar_per_vector     = 16,
+                                      .lds_dst_scalar_per_vector = 16,
+                                      .is_direct_load            = false,
+                                      .lds_padding               = true},
+    .epilogue_c                    = {.m_per_wave_per_shuffle = 1,
+                                      .n_per_wave_per_shuffle = 1,
+                                      .scalar_per_vector      = 8},
+    .block_transfer_access_order_a = {1, 0, 2},
+    .block_transfer_access_order_b = {1, 0, 2},
+    .src_access_order_a            = {1, 0, 2},
+    .src_access_order_b            = {1, 0, 2}};
+
+constexpr GridwiseXdlGemm FwdGemmParams_Xdl_4x4_per_wave{
+    .ak1 = 8, .bk1 = 8, .m_per_xdl = 32, .n_per_xdl = 32, .m_xdl_per_wave = 4, .n_xdl_per_wave = 4};
+
+constexpr GridwiseXdlGemm FwdGemmParams_Xdl_4x2_per_wave{
+    .ak1 = 8, .bk1 = 8, .m_per_xdl = 32, .n_per_xdl = 32, .m_xdl_per_wave = 4, .n_xdl_per_wave = 2};
+
+constexpr GridwiseXdlGemm FwdGemmParams_Xdl_2x1_per_wave{
+    .ak1 = 8, .bk1 = 8, .m_per_xdl = 32, .n_per_xdl = 32, .m_xdl_per_wave = 2, .n_xdl_per_wave = 1};
+
+constexpr GridwiseWmmaGemm FwdGemmParams_Wmma_2x1_per_wave{.k1               = 8,
+                                                           .m_per_wmma       = 32,
+                                                           .n_per_wmma       = 32,
+                                                           .m_wmma_per_wave  = 2,
+                                                           .n_wmma_per_wave  = 1,
+                                                           .pipeline_version = PipelineVersion::V1};
+
+constexpr ThreadBlock FwdThreadBlock_256_256x256x32{.block_size = 256,
+                                                    .tile_size  = {.m = 256, .n = 256, .k = 32}};
+
+constexpr ThreadBlock FwdThreadBlock_256_256x128x32{.block_size = 256,
+                                                    .tile_size  = {.m = 256, .n = 128, .k = 32}};
+
+constexpr ThreadBlock FwdThreadBlock_256_128x128x32{.block_size = 256,
+                                                    .tile_size  = {.m = 128, .n = 128, .k = 32}};
+
+constexpr ThreadBlock FwdThreadBlock_256_128x128x16{.block_size = 256,
+                                                    .tile_size  = {.m = 128, .n = 128, .k = 16}};
+
+constexpr ThreadBlock FwdThreadBlock_64_64x32x32{.block_size = 64,
+                                                 .tile_size  = {.m = 64, .n = 32, .k = 32}};
+
+constexpr ThreadBlock FwdThreadBlock_128_128x128x32{.block_size = 128,
+                                                    .tile_size  = {.m = 128, .n = 128, .k = 32}};
+
+constexpr ThreadBlock FwdThreadBlock_128_64x64x64{.block_size = 128,
+                                                  .tile_size  = {.m = 64, .n = 64, .k = 64}};
+
+constexpr BlockGemm BlockGemmDesc_v1_intrawave = {.pipeline_version = PipelineVersion::V1,
+                                                  .scheduler        = PipelineScheduler::INTRAWAVE};
+
+constexpr BlockGemm BlockGemmDesc_v2_intrawave = {.pipeline_version = PipelineVersion::V2,
+                                                  .scheduler        = PipelineScheduler::INTRAWAVE};
+
+constexpr BlockGemm BlockGemmDesc_v3_intrawave = {.pipeline_version = PipelineVersion::V3,
+                                                  .scheduler        = PipelineScheduler::INTRAWAVE};
+
+constexpr BlockGemm BlockGemmDesc_v4_intrawave = {.pipeline_version = PipelineVersion::V4,
+                                                  .scheduler        = PipelineScheduler::INTRAWAVE};
+
+constexpr BlockGemm BlockGemmDesc_v5_intrawave = {.pipeline_version = PipelineVersion::V5,
+                                                  .scheduler        = PipelineScheduler::INTRAWAVE};
+
+} // namespace ck_tile::builder::test_utils