From c71f2f25ebffc11c8c7c18d4bafb1701c49bd22b Mon Sep 17 00:00:00 2001
From: Enrico Degregori <enrico@streamhpc.com>
Date: Wed, 6 Aug 2025 13:00:33 +0000
Subject: [PATCH] Add multiple Ds instances

---
 ...bwd_weight_multiple_d_wmma_cshuffle_v3.hpp |  2 +-
 ..._bwd_weight_two_stage_wmma_cshuffle_v3.hpp |  2 +-
 ...conv_bwd_weight_wmma_bilinear_instance.hpp | 50 ++++++++++++---
 ...ed_conv_bwd_weight_wmma_scale_instance.hpp | 62 ++++++++++++++++---
 ...uped_convolution_backward_weight_scale.hpp | 26 ++++++++
 .../CMakeLists.txt                            |  1 +
 ...ale_ndhwgc_gkzyxc_ndhwgk_bf16_instance.cpp | 49 +++++++++++++++
 7 files changed, 171 insertions(+), 21 deletions(-)
 create mode 100644 library/src/tensor_operation_instance/gpu/grouped_conv3d_bwd_weight_scale/wmma/device_grouped_conv3d_bwd_weight_wmma_scale_ndhwgc_gkzyxc_ndhwgk_bf16_instance.cpp
diff --git a/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_bwd_weight_multiple_d_wmma_cshuffle_v3.hpp b/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_bwd_weight_multiple_d_wmma_cshuffle_v3.hpp
index e977949d89..3764b07531 100644
--- a/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_bwd_weight_multiple_d_wmma_cshuffle_v3.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_bwd_weight_multiple_d_wmma_cshuffle_v3.hpp
@@ -273,8 +273,8 @@ struct DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3
     using CGridDesc_M_N     = remove_cvref_t<decltype(ABCGridDescs{}[I2])>;
 
     using GridwiseGemm = GridwiseGemm_wmma_cshuffle_v3<
-        tensor_layout::gemm::RowMajor,
         tensor_layout::gemm::ColumnMajor,
+        tensor_layout::gemm::RowMajor,
         Tuple<>,
         tensor_layout::gemm::RowMajor,
         Tuple<ADataType>,
diff --git a/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_bwd_weight_two_stage_wmma_cshuffle_v3.hpp b/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_bwd_weight_two_stage_wmma_cshuffle_v3.hpp
index d90c58b59f..00d1406a19 100644
--- a/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_bwd_weight_two_stage_wmma_cshuffle_v3.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_bwd_weight_two_stage_wmma_cshuffle_v3.hpp
@@ -323,8 +323,8 @@ struct DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3
         remove_cvref_t<decltype(GetElementwiseCGridDesc<NDimSpatial>())>;
 
     using GridwiseGemm = GridwiseGemm_wmma_cshuffle_v3<
-        tensor_layout::gemm::RowMajor,
         tensor_layout::gemm::ColumnMajor,
+        tensor_layout::gemm::RowMajor,
         Tuple<>,
         tensor_layout::gemm::RowMajor,
         Tuple<ADataType>,
diff --git a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_bilinear_instance.hpp b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_bilinear_instance.hpp
index 98e8eeab4b..f179f1decf 100644
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_bilinear_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_bilinear_instance.hpp
@@ -19,14 +19,6 @@ using BF16 = ck::bhalf_t;
 using F16  = ck::half_t;
 using F32  = float;
 
-#ifdef CK_ENABLE_FP8
-using F8 = ck::f8_t;
-#endif
-
-#ifdef CK_ENABLE_BF8
-using BF8 = ck::bf8_t;
-#endif
-
 using Empty_Tuple = ck::Tuple<>;
 
 template <ck::index_t... Is>
@@ -53,7 +45,27 @@ using device_grouped_conv_bwd_weight_wmma_c_shuffle_f16_bilinear_instances = std
     //#################################################|     Spatial|         |          |          |               |       |        |        |        |           |   Operation|   Operation|   Operation| Specialization|      |      |      |      |     |     |     |        |        | Lengths_AK0_M_AK1|     ArrangeOrder|               |               |      PerVector|  PerVector_AK1|          | Lengths_BK0_N_BK1|   ArrangeOrder|               |              |      PerVector|  PerVector_BK1|          |  PerShuffle|  PerShuffle|      MBlock_MPerBlock|      _NPerBlock|                             Scheduler|                    Version  |
     //#################################################|            |         |          |          |               |       |        |        |        |           |            |            |            |               |      |      |      |      |     |     |     |        |        |                  |                 |               |               |               |               |          |                  |               |               |              |               |               |          |            |            |      NBlock_NPerBlock|                |                                      |                             |
     // generic instance
-    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    32,    32,    32,    8,   16,   16,       2,       1,        S<4, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              2,     true,            1,           1,         S<1, 8, 1, 8>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              4,     true,            1,           1,        S<1, 16, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              4,     true,            1,           1,        S<1, 16, 1, 4>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // instance for small conv.K
+    // for fp16 conv.K and conv.C must be divisible by 2
+    // since half_t atomic_add require scalar_per_x_vector % 2 == 0
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              1,     true,            1,           1,        S<1, 32, 1, 4>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   256,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,   256,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,   128,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    64,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    64,   128,    32,    8,   16,   16,       2,       4,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,    64,    32,    8,   16,   16,       2,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,    64,   128,    32,    8,   16,   16,       2,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    32,   128,    32,    8,   16,   16,       1,       4,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    32,    32,    8,   16,   16,       4,       1,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
     // clang-format on
     >;
 
@@ -68,7 +80,25 @@ using device_grouped_conv_bwd_weight_wmma_c_shuffle_bf16_bilinear_instances = st
     //#################################################|         Dim|         |          |          |               |   Type|    Type|    Type|    Type|       Type| Elementwise| Elementwise| Elementwise|         Weight|  Size| Block| Block| Block|     | Wmma| Wmma|        |        |     ThreadCluster|    ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|     ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN|     MRepeat|     NRepeat|        ClusterLengths| ScalarPerVector|                              Pipeline|                    Pipeline |
     //#################################################|     Spatial|         |          |          |               |       |        |        |        |           |   Operation|   Operation|   Operation| Specialization|      |      |      |      |     |     |     |        |        | Lengths_AK0_M_AK1|     ArrangeOrder|               |               |      PerVector|  PerVector_AK1|          | Lengths_BK0_N_BK1|   ArrangeOrder|               |              |      PerVector|  PerVector_BK1|          |  PerShuffle|  PerShuffle|      MBlock_MPerBlock|      _NPerBlock|                             Scheduler|                    Version  |
     //#################################################|            |         |          |          |               |       |        |        |        |           |            |            |            |               |      |      |      |      |     |     |     |        |        |                  |                 |               |               |               |               |          |                  |               |               |              |               |               |          |            |            |      NBlock_NPerBlock|                |                                      |                             |
-    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,        S<4, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              2,      true,           1,           1,         S<1, 8, 1, 8>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
+    // generic instance
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              4,     true,            1,           1,        S<1, 16, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // instance for small conv.K
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              1,     true,            1,           1,        S<1, 32, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   256,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 8>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,   256,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 8>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,   128,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    64,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    64,   128,    32,    8,   16,   16,       2,       4,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,    64,    32,    8,   16,   16,       2,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,    64,   128,    32,    8,   16,   16,       2,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    32,   128,    32,    8,   16,   16,       1,       4,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    32,    32,    8,   16,   16,       4,       1,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
     // clang-format on
     >;
 
diff --git a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_scale_instance.hpp b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_scale_instance.hpp
index 0389039e23..92fba58f54 100644
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_scale_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_scale_instance.hpp
@@ -19,14 +19,6 @@ using BF16 = ck::bhalf_t;
 using F16  = ck::half_t;
 using F32  = float;
 
-#ifdef CK_ENABLE_FP8
-using F8 = ck::f8_t;
-#endif
-
-#ifdef CK_ENABLE_BF8
-using BF8 = ck::bf8_t;
-#endif
-
 using Empty_Tuple = ck::Tuple<>;
 
 template <ck::index_t... Is>
@@ -53,7 +45,59 @@ using device_grouped_conv_bwd_weight_wmma_c_shuffle_f16_scale_instances = std::t
     //#################################################|     Spatial|         |          |          |            |       |        |        |        |            |   Operation|   Operation|   Operation| Specialization|      |      |      |      |     |     |     |        |        | Lengths_AK0_M_AK1|     ArrangeOrder|               |               |      PerVector|  PerVector_AK1|          | Lengths_BK0_N_BK1|   ArrangeOrder|               |              |      PerVector|  PerVector_BK1|          |  PerShuffle|  PerShuffle|      MBlock_MPerBlock|      _NPerBlock|                             Scheduler|                    Version  |
     //#################################################|            |         |          |          |            |       |        |        |        |            |            |            |            |               |      |      |      |      |     |     |     |        |        |                  |                 |               |               |               |               |          |                  |               |               |              |               |               |          |            |            |      NBlock_NPerBlock|                |                                      |                             |
     // generic instance
-    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,        S<4, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,             2,       true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              2,      true,           1,           1,         S<1, 8, 1, 8>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              4,     true,            1,           1,        S<1, 16, 1, 4>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // // instance for small conv.K
+    // // for fp16 conv.K and conv.C must be divisible by 2
+    // // since half_t atomic_add require scalar_per_x_vector % 2 == 0
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              1,     true,            1,           1,        S<1, 32, 1, 4>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   256,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,   256,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,   128,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    64,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    64,   128,    32,    8,   16,   16,       2,       4,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,    64,    32,    8,   16,   16,       2,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,    64,   128,    32,    8,   16,   16,       2,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    32,   128,    32,    8,   16,   16,       1,       4,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    32,    32,    8,   16,   16,       4,       1,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
+    // clang-format on
+    >;
+
+template <ck::index_t NDimSpatial,
+          typename ALayout,
+          typename BLayout,
+          typename ELayout,
+          ConvolutionBackwardWeightSpecialization ConvSpec>
+using device_grouped_conv_bwd_weight_wmma_c_shuffle_bf16_scale_instances = std::tuple<
+    // clang-format off
+    //#################################################|         Num| InLayout| WeiLayout| OutLayout|    DsLayout| InData| WeiData| OutData| AccData|      DsData|          In|         Wei|         Out|   ConvBackward| Block|  MPer|  NPer|  KPer| ABK1| MPer| NPer| MRepeat| NRepeat|    ABlockTransfer|   ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|    BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds|    CShuffle|    CShuffle| CShuffleBlockTransfer|  CBlockTransfer|                             BlockGemm|                    BlockGemm|
+    //#################################################|         Dim|         |          |          |            |   Type|    Type|    Type|    Type|        Type| Elementwise| Elementwise| Elementwise|         Weight|  Size| Block| Block| Block|     | Wmma| Wmma|        |        |     ThreadCluster|    ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|     ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN|     MRepeat|     NRepeat|        ClusterLengths| ScalarPerVector|                              Pipeline|                    Pipeline |
+    //#################################################|     Spatial|         |          |          |            |       |        |        |        |            |   Operation|   Operation|   Operation| Specialization|      |      |      |      |     |     |     |        |        | Lengths_AK0_M_AK1|     ArrangeOrder|               |               |      PerVector|  PerVector_AK1|          | Lengths_BK0_N_BK1|   ArrangeOrder|               |              |      PerVector|  PerVector_BK1|          |  PerShuffle|  PerShuffle|      MBlock_MPerBlock|      _NPerBlock|                             Scheduler|                    Version  |
+    //#################################################|            |         |          |          |            |       |        |        |        |            |            |            |            |               |      |      |      |      |     |     |     |        |        |                  |                 |               |               |               |               |          |                  |               |               |              |               |               |          |            |            |      NBlock_NPerBlock|                |                                      |                             |
+    // generic instance
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              4,     true,            1,           1,        S<1, 16, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // // instance for small conv.K
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              1,     true,            1,           1,        S<1, 32, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   256,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 8>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,   256,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 8>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,   128,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    64,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    64,   128,    32,    8,   16,   16,       2,       4,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,    64,    32,    8,   16,   16,       2,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,    64,   128,    32,    8,   16,   16,       2,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    32,   128,    32,    8,   16,   16,       1,       4,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    32,    32,    8,   16,   16,       4,       1,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
     // clang-format on
     >;
 
diff --git a/library/include/ck/library/tensor_operation_instance/gpu/grouped_convolution_backward_weight_scale.hpp b/library/include/ck/library/tensor_operation_instance/gpu/grouped_convolution_backward_weight_scale.hpp
index 9762b65b33..ded9cfdddc 100644
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_convolution_backward_weight_scale.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_convolution_backward_weight_scale.hpp
@@ -33,6 +33,22 @@ void add_device_grouped_conv3d_bwd_weight_wmma_scale_ndhwgc_gkzyxc_ndhwgk_f16_in
                                                                     Scale,
                                                                     PassThrough>>>& instances);
 #endif
+
+#ifdef CK_ENABLE_BF16
+void add_device_grouped_conv3d_bwd_weight_wmma_scale_ndhwgc_gkzyxc_ndhwgk_bf16_f32_bf16_instances(
+    std::vector<std::unique_ptr<DeviceGroupedConvBwdWeightMultipleD<3,
+                                                                    NDHWGC,
+                                                                    GKZYXC,
+                                                                    NDHWGK,
+                                                                    Tuple<>,
+                                                                    BF16,
+                                                                    F32,
+                                                                    BF16,
+                                                                    Tuple<>,
+                                                                    PassThrough,
+                                                                    Scale,
+                                                                    PassThrough>>>& instances);
+#endif
 #endif
 
 #ifdef CK_USE_XDL
@@ -161,6 +177,16 @@ struct DeviceOperationInstanceFactory<
                     add_device_grouped_conv3d_bwd_weight_wmma_scale_ndhwgc_gkzyxc_ndhwgk_f16_instances(
                         op_ptrs);
                 }
+#endif
+#ifdef CK_ENABLE_BF16
+                if constexpr(is_same_v<InDataType, ck::bhalf_t> && is_same_v<WeiDataType, float> &&
+                             is_same_v<OutDataType, ck::bhalf_t> &&
+                             is_same_v<ComputeTypeA, ck::bhalf_t> &&
+                             is_same_v<ComputeTypeB, ck::bhalf_t>)
+                {
+                    add_device_grouped_conv3d_bwd_weight_wmma_scale_ndhwgc_gkzyxc_ndhwgk_bf16_f32_bf16_instances(
+                        op_ptrs);
+                }
 #endif
             }
         }
diff --git a/library/src/tensor_operation_instance/gpu/grouped_conv3d_bwd_weight_scale/CMakeLists.txt b/library/src/tensor_operation_instance/gpu/grouped_conv3d_bwd_weight_scale/CMakeLists.txt
index 6327072e83..7543c2096c 100644
--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_bwd_weight_scale/CMakeLists.txt
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_bwd_weight_scale/CMakeLists.txt
@@ -11,6 +11,7 @@ endif()
 
 list(APPEND GROUPED_CONV3D_BWD_WEIGHT_SCALE
     wmma/device_grouped_conv3d_bwd_weight_wmma_scale_ndhwgc_gkzyxc_ndhwgk_f16_instance.cpp
+    wmma/device_grouped_conv3d_bwd_weight_wmma_scale_ndhwgc_gkzyxc_ndhwgk_bf16_instance.cpp
     )
 
 add_instance_library(device_grouped_conv3d_bwd_weight_scale_instance ${GROUPED_CONV3D_BWD_WEIGHT_SCALE})
diff --git a/library/src/tensor_operation_instance/gpu/grouped_conv3d_bwd_weight_scale/wmma/device_grouped_conv3d_bwd_weight_wmma_scale_ndhwgc_gkzyxc_ndhwgk_bf16_instance.cpp b/library/src/tensor_operation_instance/gpu/grouped_conv3d_bwd_weight_scale/wmma/device_grouped_conv3d_bwd_weight_wmma_scale_ndhwgc_gkzyxc_ndhwgk_bf16_instance.cpp
new file mode 100644
index 0000000000..661d3abd93
--- /dev/null
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_bwd_weight_scale/wmma/device_grouped_conv3d_bwd_weight_wmma_scale_ndhwgc_gkzyxc_ndhwgk_bf16_instance.cpp
@@ -0,0 +1,49 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2025, Advanced Micro Devices, Inc. All rights reserved.
+
+#include "ck/library/tensor_operation_instance/add_device_operation_instance.hpp"
+#include "ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_scale_instance.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+// Compilation parameters for in[n, hi, wi, g, c] * wei[g, k, y, x, c] = out[n, ho, wo, g, k]
+void add_device_grouped_conv3d_bwd_weight_wmma_scale_ndhwgc_gkzyxc_ndhwgk_bf16_f32_bf16_instances(
+    std::vector<std::unique_ptr<DeviceGroupedConvBwdWeightMultipleD<3,
+                                                                    NDHWGC,
+                                                                    GKZYXC,
+                                                                    NDHWGK,
+                                                                    Tuple<>,
+                                                                    BF16,
+                                                                    F32,
+                                                                    BF16,
+                                                                    Tuple<>,
+                                                                    PassThrough,
+                                                                    Scale,
+                                                                    PassThrough>>>& instances)
+{
+    // 1. Default
+    add_device_operation_instances(
+        instances,
+        device_grouped_conv_bwd_weight_wmma_c_shuffle_bf16_scale_instances<3,
+                                                                           NDHWGC,
+                                                                           GKZYXC,
+                                                                           NDHWGK,
+                                                                           ConvBwdWeightDefault>{});
+    // 2. Filter1x1Stride1Pad0
+    add_device_operation_instances(
+        instances,
+        device_grouped_conv_bwd_weight_wmma_c_shuffle_bf16_scale_instances<
+            3,
+            NDHWGC,
+            GKZYXC,
+            NDHWGK,
+            ConvBwdWeightFilter1x1Stride1Pad0>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck