[CK_BUILDER] Convolution forward transfer concepts. (#3535)

* Rename member variable to better reflect its actuall meaning. * Add transfer checks for conv fwd xdl. * Validate tensor layouts & vector size conv fwd v3. * Add combined transfer concepts. * Add transfer concepts for conv fwd factories. * Fix clang format * Add helper instruction to get max mem vector instruction width. * Apply review comments. * Rename thread cluster access(->arrange) order concept * FIx merge artifacts. * Add generic access order limits into block transfer concept.
2026-04-20 14:59:17 +00:00 · 2026-01-19 10:54:10 +01:00
parent fe40a5d139
commit 1a6d1b59ef
13 changed files with 570 additions and 157 deletions
--- a/experimental/builder/test/utils/ckb_conv_test_configs.hpp
+++ b/experimental/builder/test/utils/ckb_conv_test_configs.hpp
@@ -53,25 +53,25 @@ constexpr DlTransfer<5> DlTransfer5D{.a = DlBlockTransfer_1x8x1x1x1,
 constexpr Transfer<> Transfer_4x64x1{
    .a =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 64, .k1 = 1},
-            .lds_transfer                = {.src_vector_dim            = 2,
-                                            .src_scalar_per_vector     = 2,
-                                            .lds_dst_scalar_per_vector = 8,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = false},
-            .block_transfer_access_order = {1, 0, 2},
-            .src_access_order            = {1, 0, 2},
+            .block_transfer               = {.k0 = 4, .m_n = 64, .k1 = 1},
+            .lds_transfer                 = {.src_vector_dim            = 2,
+                                             .src_scalar_per_vector     = 2,
+                                             .lds_dst_scalar_per_vector = 4,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = false},
+            .thread_cluster_arrange_order = {1, 0, 2},
+            .src_access_order             = {1, 0, 2},
        },
    .b =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 64, .k1 = 1},
-            .lds_transfer                = {.src_vector_dim            = 2,
-                                            .src_scalar_per_vector     = 8,
-                                            .lds_dst_scalar_per_vector = 8,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = false},
-            .block_transfer_access_order = {1, 0, 2},
-            .src_access_order            = {1, 0, 2},
+            .block_transfer               = {.k0 = 4, .m_n = 64, .k1 = 1},
+            .lds_transfer                 = {.src_vector_dim            = 2,
+                                             .src_scalar_per_vector     = 4,
+                                             .lds_dst_scalar_per_vector = 4,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = false},
+            .thread_cluster_arrange_order = {1, 0, 2},
+            .src_access_order             = {1, 0, 2},
        },
    .c =
        {
@@ -86,25 +86,25 @@ constexpr Transfer<> Transfer_4x64x1{
 constexpr Transfer<4> BwdTransfer_4x64x1{
    .a =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 64, .k1 = 1, .k_batch_size = 1},
-            .lds_transfer                = {.src_vector_dim            = 2,
-                                            .src_scalar_per_vector     = 2,
-                                            .lds_dst_scalar_per_vector = 4,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = true},
-            .block_transfer_access_order = {0, 3, 1, 2},
-            .src_access_order            = {0, 2, 1, 3},
+            .block_transfer               = {.k0 = 4, .m_n = 64, .k1 = 1, .k_batch_size = 1},
+            .lds_transfer                 = {.src_vector_dim            = 2,
+                                             .src_scalar_per_vector     = 2,
+                                             .lds_dst_scalar_per_vector = 4,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = true},
+            .thread_cluster_arrange_order = {0, 3, 1, 2},
+            .src_access_order             = {0, 2, 1, 3},
        },
    .b =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 64, .k1 = 1, .k_batch_size = 1},
-            .lds_transfer                = {.src_vector_dim            = 2,
-                                            .src_scalar_per_vector     = 2,
-                                            .lds_dst_scalar_per_vector = 4,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = true},
-            .block_transfer_access_order = {0, 3, 1, 2},
-            .src_access_order            = {0, 2, 1, 3},
+            .block_transfer               = {.k0 = 4, .m_n = 64, .k1 = 1, .k_batch_size = 1},
+            .lds_transfer                 = {.src_vector_dim            = 2,
+                                             .src_scalar_per_vector     = 2,
+                                             .lds_dst_scalar_per_vector = 4,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = true},
+            .thread_cluster_arrange_order = {0, 3, 1, 2},
+            .src_access_order             = {0, 2, 1, 3},
        },
    .c =
        {
@@ -119,25 +119,25 @@ constexpr Transfer<4> BwdTransfer_4x64x1{
 constexpr Transfer<> BwdTransfer_4x8x1_4x16x1_v3{
    .a =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 8, .k1 = 1},
-            .lds_transfer                = {.src_vector_dim            = 1,
-                                            .src_scalar_per_vector     = 2,
-                                            .lds_dst_scalar_per_vector = 2,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = false},
-            .block_transfer_access_order = {2, 0, 1},
-            .src_access_order            = {1, 0, 2},
+            .block_transfer               = {.k0 = 4, .m_n = 8, .k1 = 1},
+            .lds_transfer                 = {.src_vector_dim            = 1,
+                                             .src_scalar_per_vector     = 2,
+                                             .lds_dst_scalar_per_vector = 2,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = false},
+            .thread_cluster_arrange_order = {2, 0, 1},
+            .src_access_order             = {1, 0, 2},
        },
    .b =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 16, .k1 = 1},
-            .lds_transfer                = {.src_vector_dim            = 1,
-                                            .src_scalar_per_vector     = 2,
-                                            .lds_dst_scalar_per_vector = 2,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = false},
-            .block_transfer_access_order = {2, 0, 1},
-            .src_access_order            = {1, 0, 2},
+            .block_transfer               = {.k0 = 4, .m_n = 16, .k1 = 1},
+            .lds_transfer                 = {.src_vector_dim            = 1,
+                                             .src_scalar_per_vector     = 2,
+                                             .lds_dst_scalar_per_vector = 2,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = false},
+            .thread_cluster_arrange_order = {2, 0, 1},
+            .src_access_order             = {1, 0, 2},
        },
    .c =
        {
@@ -152,25 +152,25 @@ constexpr Transfer<> BwdTransfer_4x8x1_4x16x1_v3{
 constexpr Transfer<> Transfer_4x64x1_fp8{
    .a =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 64, .k1 = 1},
-            .lds_transfer                = {.src_vector_dim            = 2,
-                                            .src_scalar_per_vector     = 8,
-                                            .lds_dst_scalar_per_vector = 8,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = true},
-            .block_transfer_access_order = {1, 0, 2},
-            .src_access_order            = {1, 0, 2},
+            .block_transfer               = {.k0 = 4, .m_n = 64, .k1 = 1},
+            .lds_transfer                 = {.src_vector_dim            = 2,
+                                             .src_scalar_per_vector     = 8,
+                                             .lds_dst_scalar_per_vector = 8,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = true},
+            .thread_cluster_arrange_order = {1, 0, 2},
+            .src_access_order             = {1, 0, 2},
        },
    .b =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 64, .k1 = 1},
-            .lds_transfer                = {.src_vector_dim            = 2,
-                                            .src_scalar_per_vector     = 8,
-                                            .lds_dst_scalar_per_vector = 8,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = true},
-            .block_transfer_access_order = {1, 0, 2},
-            .src_access_order            = {1, 0, 2},
+            .block_transfer               = {.k0 = 4, .m_n = 64, .k1 = 1},
+            .lds_transfer                 = {.src_vector_dim            = 2,
+                                             .src_scalar_per_vector     = 8,
+                                             .lds_dst_scalar_per_vector = 8,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = true},
+            .thread_cluster_arrange_order = {1, 0, 2},
+            .src_access_order             = {1, 0, 2},
        },
    .c =
        {
@@ -185,25 +185,25 @@ constexpr Transfer<> Transfer_4x64x1_fp8{
 constexpr Transfer<> Transfer_4x16x1{
    .a =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 16, .k1 = 1},
-            .lds_transfer                = {.src_vector_dim            = 2,
-                                            .src_scalar_per_vector     = 8,
-                                            .lds_dst_scalar_per_vector = 8,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = true},
-            .block_transfer_access_order = {1, 0, 2},
-            .src_access_order            = {1, 0, 2},
+            .block_transfer               = {.k0 = 4, .m_n = 16, .k1 = 1},
+            .lds_transfer                 = {.src_vector_dim            = 2,
+                                             .src_scalar_per_vector     = 8,
+                                             .lds_dst_scalar_per_vector = 8,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = true},
+            .thread_cluster_arrange_order = {1, 0, 2},
+            .src_access_order             = {1, 0, 2},
        },
    .b =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 16, .k1 = 1},
-            .lds_transfer                = {.src_vector_dim            = 2,
-                                            .src_scalar_per_vector     = 8,
-                                            .lds_dst_scalar_per_vector = 8,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = true},
-            .block_transfer_access_order = {1, 0, 2},
-            .src_access_order            = {1, 0, 2},
+            .block_transfer               = {.k0 = 4, .m_n = 16, .k1 = 1},
+            .lds_transfer                 = {.src_vector_dim            = 2,
+                                             .src_scalar_per_vector     = 8,
+                                             .lds_dst_scalar_per_vector = 8,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = true},
+            .thread_cluster_arrange_order = {1, 0, 2},
+            .src_access_order             = {1, 0, 2},
        },
    .c =
        {
@@ -219,25 +219,25 @@ constexpr Transfer<> Transfer_4x16x1{
 constexpr Transfer<> Transfer_4x32x1{
    .a =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 32, .k1 = 1},
-            .lds_transfer                = {.src_vector_dim            = 2,
-                                            .src_scalar_per_vector     = 16,
-                                            .lds_dst_scalar_per_vector = 16,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = true},
-            .block_transfer_access_order = {1, 0, 2},
-            .src_access_order            = {1, 0, 2},
+            .block_transfer               = {.k0 = 4, .m_n = 32, .k1 = 1},
+            .lds_transfer                 = {.src_vector_dim            = 2,
+                                             .src_scalar_per_vector     = 16,
+                                             .lds_dst_scalar_per_vector = 16,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = true},
+            .thread_cluster_arrange_order = {1, 0, 2},
+            .src_access_order             = {1, 0, 2},
        },
    .b =
        {
-            .block_transfer              = {.k0 = 4, .m_n = 32, .k1 = 1},
-            .lds_transfer                = {.src_vector_dim            = 2,
-                                            .src_scalar_per_vector     = 16,
-                                            .lds_dst_scalar_per_vector = 16,
-                                            .is_direct_load            = false,
-                                            .lds_padding               = true},
-            .block_transfer_access_order = {1, 0, 2},
-            .src_access_order            = {1, 0, 2},
+            .block_transfer               = {.k0 = 4, .m_n = 32, .k1 = 1},
+            .lds_transfer                 = {.src_vector_dim            = 2,
+                                             .src_scalar_per_vector     = 16,
+                                             .lds_dst_scalar_per_vector = 16,
+                                             .is_direct_load            = false,
+                                             .lds_padding               = true},
+            .thread_cluster_arrange_order = {1, 0, 2},
+            .src_access_order             = {1, 0, 2},
        },
    .c =
        {
--- a/experimental/builder/test/utils/conv_algorithm_type_utils.hpp
+++ b/experimental/builder/test/utils/conv_algorithm_type_utils.hpp
@@ -165,7 +165,7 @@ template <size_t N = 3>
 inline std::string to_string(InputTransfer<N> t)
 {
    std::ostringstream oss;
-    oss << to_string(t.block_transfer) << "," << to_string(t.block_transfer_access_order) << ","
+    oss << to_string(t.block_transfer) << "," << to_string(t.thread_cluster_arrange_order) << ","
        << to_string(t.src_access_order) << "," << t.lds_transfer.src_vector_dim << ","
        << t.lds_transfer.src_scalar_per_vector << "," << t.lds_transfer.lds_dst_scalar_per_vector
        << "," << (t.lds_transfer.lds_padding ? "true" : "false");