From 14d3bfa1eb5f595c2d443720e5d2160820c75699 Mon Sep 17 00:00:00 2001
From: yinglu <Yingmao.Lu@amd.com>
Date: Fri, 21 Nov 2025 09:09:43 +0800
Subject: [PATCH] fix:bf16x3:enable all instances on gfx950 (#3248)

* fix:bf16x3:enable all instances on gfx950

* fix clang-format fail

* fix clang-format fail

* fix:modified wrong params previously

[ROCm/composable_kernel commit: 4155eb24f973fb14fd7ef304d086a743eb87e514]
---
 ...ice_grouped_conv_bwd_data_xdl_instance.hpp | 23 +++++++++++--------
 ...ed_conv_fwd_xdl_merged_groups_instance.hpp | 12 +++++++---
 .../gpu/CMakeLists.txt                        |  4 ++--
 3 files changed, 25 insertions(+), 14 deletions(-)

diff --git a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_data/device_grouped_conv_bwd_data_xdl_instance.hpp b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_data/device_grouped_conv_bwd_data_xdl_instance.hpp
index fb91de40a3..745f8cbd32 100644
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_data/device_grouped_conv_bwd_data_xdl_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_data/device_grouped_conv_bwd_data_xdl_instance.hpp
@@ -376,6 +376,11 @@ using device_grouped_conv_bwd_data_xdl_f32_optimized_loads_instances =
         // clang-format on
         >;
 
+#if defined(__gfx950__)
+constexpr auto _k_per_block = 32;
+#else
+constexpr auto _k_per_block = 16;
+#endif
 template <index_t NDimSpatial,
           typename ALayout,
           typename BLayout,
@@ -392,22 +397,22 @@ using device_grouped_conv_bwd_data_xdl_f32_tf32_optimized_loads_instances =
        // A K1 one access for each thread per load 
        // 32x32
         DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,  F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,  128,    32,    32,   8,    8,  32,   32,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              4,         1,        S<4, 4, 8>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              1,         1,            1,            1,     S<1, 32, 1, 8>,                4, make_default_loop_scheduler(), TF32, TF32>,
-        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,  F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,  128,    32,    16,   4,    4,  32,   32,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 4, 4>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              1,         1,            1,            1,     S<1, 32, 1, 8>,                4, make_default_loop_scheduler(), TF32, TF32>,
-        
+        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,  F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,  128,    32,_k_per_block,4,    4,  32,   32,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 4, 4>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              1,         1,            1,            1,     S<1, 32, 1, 8>,                4, make_default_loop_scheduler(), TF32, TF32>,
+
         DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,  F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,  128,    32,    32,   8,    8,  32,   32,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              4,         1,        S<4, 8, 8>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              2,              1,         1,            1,            1,     S<1, 16, 1, 16>,               2, make_default_loop_scheduler(), TF32, TF32>,
-        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,  F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,  128,    32,    16,   4,    4,  32,   32,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 8, 4>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              2,              1,         1,            1,            1,     S<1, 16, 1, 16>,               2, make_default_loop_scheduler(), TF32, TF32>,
-        
+        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,  F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,  128,    32,_k_per_block,4,    4,  32,   32,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 8, 4>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              2,              1,         1,            1,            1,     S<1, 16, 1, 16>,               2, make_default_loop_scheduler(), TF32, TF32>,
+
         DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,  F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,  128,    32,    32,   8,    8,  32,   32,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              4,         1,        S<4, 8, 8>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              1,              1,         1,            1,            1,     S<1, 8, 1, 32>,                1, make_default_loop_scheduler(), TF32, TF32>,
-        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,  F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,  128,    32,    16,   4,    4,  32,   32,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 16, 4>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              1,              1,         1,            1,            1,     S<1, 8, 1, 32>,                1, make_default_loop_scheduler(), TF32, TF32>,
-        // 16x16      
+        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,  F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,  128,    32,_k_per_block,4,    4,  32,   32,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 16, 4>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              1,              1,         1,            1,            1,     S<1, 8, 1, 32>,                1, make_default_loop_scheduler(), TF32, TF32>,
+        // 16x16
         DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,   F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,   64,    16,    32,   8,    8,  16,   16,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              4,         1,        S<4, 2, 8>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              1,         1,            1,            1,     S<1, 64, 1, 4>,                4, make_default_loop_scheduler(), TF32, TF32>,
-        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,   F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,   64,    16,    16,   4,    4,  16,   16,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 2, 4>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              1,         1,            1,            1,     S<1, 64, 1, 4>,                4, make_default_loop_scheduler(), TF32, TF32>,
+        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,   F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,   64,    16,_k_per_block,4,    4,  16,   16,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 2, 4>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              1,         1,            1,            1,     S<1, 64, 1, 4>,                4, make_default_loop_scheduler(), TF32, TF32>,
 
         DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,   F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,   64,    16,    32,   8,    8,  16,   16,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              4,         1,        S<4, 8, 8>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              2,              1,         1,            1,            1,     S<1, 32, 1, 8>,                2, make_default_loop_scheduler(), TF32, TF32>,
-        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,   F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,   64,    16,    16,   4,    4,  16,   16,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 8, 4>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              2,              1,         1,            1,            1,     S<1, 32, 1, 8>,                2, make_default_loop_scheduler(), TF32, TF32>,
+        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,   F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,   64,    16,_k_per_block,4,    4,  16,   16,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 8, 4>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              2,              1,         1,            1,            1,     S<1, 32, 1, 8>,                2, make_default_loop_scheduler(), TF32, TF32>,
 
         DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,   F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,   64,    16,    32,   8,    8,  16,   16,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              4,         1,        S<4, 8, 8>,      S<0, 2, 1>,     S<0, 2, 1>,              1,              1,              1,         1,            1,            1,     S<1, 16, 1, 16>,               1, make_default_loop_scheduler(), TF32, TF32>,
-        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,   F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,   64,    16,    16,   4,    4,  16,   16,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 16, 4>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              1,              1,         1,            1,            1,     S<1, 16, 1, 16>,               1, make_default_loop_scheduler(), TF32, TF32>
+        DeviceGroupedConvBwdDataMultipleD_Xdl_CShuffle_v1< NDimSpatial, ALayout, BLayout,    DsLayout, ELayout,   F32,   F32,     F32,     F32,  Empty_Tuple,   F32,  PassThrough,  PassThrough,    PassThrough,            ConvSpec,  true,  true,             1,    256,   64,    16,_k_per_block,4,    4,  16,   16,       1,       1,       S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,         1,        S<4, 16, 4>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              1,              1,         1,            1,            1,     S<1, 16, 1, 16>,               1, make_default_loop_scheduler(), TF32, TF32>
         // clang-format on
         >;
 
diff --git a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_fwd/device_grouped_conv_fwd_xdl_merged_groups_instance.hpp b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_fwd/device_grouped_conv_fwd_xdl_merged_groups_instance.hpp
index 6f7ec1f844..944e68f192 100644
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_fwd/device_grouped_conv_fwd_xdl_merged_groups_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_fwd/device_grouped_conv_fwd_xdl_merged_groups_instance.hpp
@@ -143,6 +143,12 @@ using device_grouped_conv_fwd_xdl_merged_groups_f32_instances = std::tuple<
     // clang-format on
     >;
 
+#if defined(__gfx950__)
+constexpr auto _k_per_block = 32;
+#else
+constexpr auto _k_per_block = 16;
+#endif
+
 template <index_t NDimSpatial,
           typename ALayout,
           typename BLayout,
@@ -158,9 +164,9 @@ using device_grouped_conv_fwd_xdl_merged_groups_f32_tf32_instances = std::tuple<
         //########################################|           |       |       |            |       |      |      |        |         |            |      |   Operation|   Operation|   Operation|               |               |    Stage|      |      |      |      |    |    |     |     | Wave| Wave| Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          | Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          |  PerShuffle|  PerShuffle|         _NBlock_NWaveNPerXdl|   _NWaveNPerXdl|
         //########################################|           |       |       |            |       |      |      |        |         |            |      |            |            |            |               |               |         |      |      |      |      |    |    |     |     |     |     |                |               |               |               |               |               |          |                |               |               |              |               |               |          |            |            |                             |                |
         // Instances with NumGroupsPerBatch > 1
-        DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<NDimSpatial,ALayout,BLayout,    DsLayout,ELayout,    F32,     F32,     F32,     F32, DsDataTypes,   F32,  PassThrough, PassThrough, OutElementOp,                  ConvSpec, GemmMNKPadding,  1,  64,    64,    16,     16,   4, 4,  16,   16,    4,    1,  S< 4, 16,  1>, S<0, 2, 1>,     S<0, 2, 1>,                   1,              4,              4,      1,  S< 4, 16,  1>,   S<1, 0, 2>,     S<1, 0, 2>,             2,              1,              4,      1,           1,           1,   S<1, 16, 1, 4>,                  1, TF32, TF32, LoopScheduler::Default, 8>,
-        DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<NDimSpatial,ALayout,BLayout,    DsLayout,ELayout,    F32,     F32,     F32,     F32, DsDataTypes,   F32,  PassThrough, PassThrough, OutElementOp,                  ConvSpec, GemmMNKPadding,  1,  64,    64,    16,     16,   4, 4,  16,   16,    4,    1,  S< 4, 16,  1>, S<0, 2, 1>,     S<0, 2, 1>,                   1,              4,              4,      1,  S< 4, 16,  1>,   S<1, 0, 2>,     S<1, 0, 2>,             2,              1,              4,      1,           1,           1,   S<1, 16, 1, 4>,                  1, TF32, TF32, LoopScheduler::Default, 16>,
-        DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<NDimSpatial,ALayout,BLayout,    DsLayout,ELayout,    F32,     F32,     F32,     F32, DsDataTypes,   F32,  PassThrough, PassThrough, OutElementOp,                  ConvSpec, GemmMNKPadding,  1,  64,    64,    16,     16,   4, 4,  16,   16,    4,    1,  S< 4, 16,  1>, S<0, 2, 1>,     S<0, 2, 1>,                   1,              4,              4,      1,  S< 4, 16,  1>,   S<1, 0, 2>,     S<1, 0, 2>,             2,              1,              4,      1,           1,           1,   S<1, 16, 1, 4>,                  1, TF32, TF32, LoopScheduler::Default, 32>
+        DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<NDimSpatial,ALayout,BLayout,    DsLayout,ELayout,    F32,     F32,     F32,     F32, DsDataTypes,   F32,  PassThrough, PassThrough, OutElementOp,                  ConvSpec, GemmMNKPadding,  1,  64,    64,    16,_k_per_block,4, 4,  16,   16,    4,    1,  S< 4, 16,  1>, S<0, 2, 1>,     S<0, 2, 1>,                   1,              4,              4,      1,  S< 4, 16,  1>,   S<1, 0, 2>,     S<1, 0, 2>,             2,              1,              4,      1,           1,           1,   S<1, 16, 1, 4>,                  1, TF32, TF32, LoopScheduler::Default, 8>,
+        DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<NDimSpatial,ALayout,BLayout,    DsLayout,ELayout,    F32,     F32,     F32,     F32, DsDataTypes,   F32,  PassThrough, PassThrough, OutElementOp,                  ConvSpec, GemmMNKPadding,  1,  64,    64,    16,_k_per_block,4, 4,  16,   16,    4,    1,  S< 4, 16,  1>, S<0, 2, 1>,     S<0, 2, 1>,                   1,              4,              4,      1,  S< 4, 16,  1>,   S<1, 0, 2>,     S<1, 0, 2>,             2,              1,              4,      1,           1,           1,   S<1, 16, 1, 4>,                  1, TF32, TF32, LoopScheduler::Default, 16>,
+        DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<NDimSpatial,ALayout,BLayout,    DsLayout,ELayout,    F32,     F32,     F32,     F32, DsDataTypes,   F32,  PassThrough, PassThrough, OutElementOp,                  ConvSpec, GemmMNKPadding,  1,  64,    64,    16,_k_per_block,4, 4,  16,   16,    4,    1,  S< 4, 16,  1>, S<0, 2, 1>,     S<0, 2, 1>,                   1,              4,              4,      1,  S< 4, 16,  1>,   S<1, 0, 2>,     S<1, 0, 2>,             2,              1,              4,      1,           1,           1,   S<1, 16, 1, 4>,                  1, TF32, TF32, LoopScheduler::Default, 32>
     // clang-format on
     >;
 
diff --git a/library/src/tensor_operation_instance/gpu/CMakeLists.txt b/library/src/tensor_operation_instance/gpu/CMakeLists.txt
index 172f6681b8..6f171191ca 100644
--- a/library/src/tensor_operation_instance/gpu/CMakeLists.txt
+++ b/library/src/tensor_operation_instance/gpu/CMakeLists.txt
@@ -94,8 +94,8 @@ function(add_instance_library INSTANCE_NAME)
             message(DEBUG "removing gemm_universal_preshuffle_f8 instance ${source} ")
             list(REMOVE_ITEM ARGN "${source}")
         endif()
-        # Only build tf32 instances for gfx942
-        if(NOT INST_TARGETS MATCHES "gfx942" AND source_name MATCHES "_tf32_")
+        # Only build tf32 instances for gfx942 & gfx950
+        if(NOT (INST_TARGETS MATCHES "gfx942" OR INST_TARGETS MATCHES "gfx950") AND source_name MATCHES "_tf32_")
             message(DEBUG "removing tf32 instance ${source} ")
             list(REMOVE_ITEM ARGN "${source}")
         endif()