From c9c05bfc7deafe0239ea3e6ebed2bbb361d4717d Mon Sep 17 00:00:00 2001
From: kiefer <kiefer.van.teutem@streamhpc.com>
Date: Thu, 4 Dec 2025 08:27:08 +0000
Subject: [PATCH] Remove some instances that give incorrect results (f16 NHWGC)

---
 ..._gemm_wmma_universal_km_kn_mn_instance.hpp | 54 +++++++++++++------
 ...onv_bwd_weight_two_stage_wmma_instance.hpp |  8 +--
 ...ouped_conv_bwd_weight_v3_wmma_instance.hpp | 12 ++---
 ...bf16_bf16_exp_comp_mnkpadding_instance.cpp |  4 +-
 ...6_f16_f16_exp_comp_mnkpadding_instance.cpp |  4 +-
 5 files changed, 51 insertions(+), 31 deletions(-)
diff --git a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_exp_gemm_wmma_universal_km_kn_mn_instance.hpp b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_exp_gemm_wmma_universal_km_kn_mn_instance.hpp
index 7d5486e708..6c88a9c970 100644
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_exp_gemm_wmma_universal_km_kn_mn_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_exp_gemm_wmma_universal_km_kn_mn_instance.hpp
@@ -63,26 +63,47 @@ using device_gemm_wmma_universal_km_kn_mn_GemmDefault_instances = std::tuple<
     // clang-format on
     >;
 
-template <typename InOutDataType>
-using device_gemm_wmma_universal_km_kn_mn_GemmMNKPadding_instances = std::tuple<
+using device_gemm_wmma_universal_km_kn_mn_GemmMNKPadding_f16_instances = std::tuple<
     // clang-format off
     //#####################################| ALayout| BLayout| DsLayout |ELayout|     ADataType|     BDataType| DsDataType|     CDataType|   AccDataType|      CShuffle|           A|           B|         CDE|           GEMM| Block|  MPer|  NPer|  KPer| AK1| BK1| MPer| NPer| MRepeat| NRepeat|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|  BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds|    CShuffle|    CShuffle| CShuffleBlockTransferClusterLengths|  CShuffleBlockTransfer|                          BlockwiseGemm|                BlockwiseGemm|
     //#####################################|        |        |          |       |              |              |           |              |              |      DataType| Elementwise| Elementwise| Elementwise| Specialization|  Size| Block| Block| Block|    |    | Wmma| Wmma|        |        |   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|   ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN|     MRepeat|     NRepeat|  _MBlock_MPerBlock_NBlock_NPerBlock|       ScalarPerVectors|                               Pipeline|                     Pipeline|
     //#####################################|        |        |          |       |              |              |           |              |              |              |   Operation|   Operation|   Operation|               |      |      |      |      |    |    |     |     |        |        | Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          | Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          |  PerShuffle|  PerShuffle|                                    |                       |                              Scheduler|                     Verision|
     //#####################################|        |        |          |       |              |              |           |              |              |              |            |            |            |               |      |      |      |      |    |    |     |     |        |        |                |               |               |               |               |               |          |                |               |               |              |               |               |          |            |            |                                    |                       |                                       |                             |
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    96,    32,   8,   8,   16,   16,       4,       3,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         1,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    64,    64,   8,   8,   16,   16,       4,       2,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,   128,    48,    64,   128,   8,   8,   16,   16,       3,       1,     S<16, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,     S<16, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 8>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    64,    64,   8,   8,   16,   16,       4,       2,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              8,         0,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    96,    32,   8,   8,   16,   16,       4,       3,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    48,    64,    64,   8,   8,   16,   16,       3,       2,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    96,    64,    32,   8,   8,   16,   16,       6,       2,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    32,   128,   8,   8,   16,   16,       2,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              8,         0,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    32,   128,   8,   8,   16,   16,       2,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    48,    32,   128,   8,   8,   16,   16,       3,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    96,    64,   8,   8,   16,   16,       2,       3,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    96,    64,    96,    48,   8,   8,   16,   16,       4,       2,     S<6, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         1,     S<6, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         0,           1,           1,                      S<1, 16, 1, 6>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row, InOutDataType, InOutDataType,    Tuple<>, InOutDataType,           F32, InOutDataType, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    32,   128,   8,   8,   16,   16,       2,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    96,    32,   8,   8,   16,   16,       4,       3,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         1,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    64,    64,   8,   8,   16,   16,       4,       2,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,   128,    48,    64,   128,   8,   8,   16,   16,       3,       1,     S<16, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,     S<16, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 8>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    64,    64,   8,   8,   16,   16,       4,       2,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              8,         0,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    96,    32,   8,   8,   16,   16,       4,       3,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    48,    64,    64,   8,   8,   16,   16,       3,       2,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    96,    64,    32,   8,   8,   16,   16,       6,       2,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    32,   128,   8,   8,   16,   16,       2,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              8,         0,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    32,   128,   8,   8,   16,   16,       2,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    48,    32,   128,   8,   8,   16,   16,       3,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    96,    64,   8,   8,   16,   16,       2,       3,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    96,    64,    96,    48,   8,   8,   16,   16,       4,       2,     S<6, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         1,     S<6, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         0,           1,           1,                      S<1, 16, 1, 6>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>, // Incorrect results for f16
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,           F16,           F16,    Tuple<>,           F16,           F32,           F16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    32,   128,   8,   8,   16,   16,       2,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
+    // clang-format on
+    >;
+
+using device_gemm_wmma_universal_km_kn_mn_GemmMNKPadding_bf16_instances = std::tuple<
+    // clang-format off
+    //#####################################| ALayout| BLayout| DsLayout |ELayout|     ADataType|     BDataType| DsDataType|     CDataType|   AccDataType|      CShuffle|           A|           B|         CDE|           GEMM| Block|  MPer|  NPer|  KPer| AK1| BK1| MPer| NPer| MRepeat| NRepeat|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|  BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds|    CShuffle|    CShuffle| CShuffleBlockTransferClusterLengths|  CShuffleBlockTransfer|                          BlockwiseGemm|                BlockwiseGemm|
+    //#####################################|        |        |          |       |              |              |           |              |              |      DataType| Elementwise| Elementwise| Elementwise| Specialization|  Size| Block| Block| Block|    |    | Wmma| Wmma|        |        |   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|   ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN|     MRepeat|     NRepeat|  _MBlock_MPerBlock_NBlock_NPerBlock|       ScalarPerVectors|                               Pipeline|                     Pipeline|
+    //#####################################|        |        |          |       |              |              |           |              |              |              |   Operation|   Operation|   Operation|               |      |      |      |      |    |    |     |     |        |        | Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          | Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          |  PerShuffle|  PerShuffle|                                    |                       |                              Scheduler|                     Verision|
+    //#####################################|        |        |          |       |              |              |           |              |              |              |            |            |            |               |      |      |      |      |    |    |     |     |        |        |                |               |               |               |               |               |          |                |               |               |              |               |               |          |            |            |                                    |                       |                                       |                             |
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    96,    32,   8,   8,   16,   16,       4,       3,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         1,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    64,    64,   8,   8,   16,   16,       4,       2,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,   128,    48,    64,   128,   8,   8,   16,   16,       3,       1,     S<16, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,     S<16, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 8>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    64,    64,   8,   8,   16,   16,       4,       2,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              8,         0,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    64,    96,    32,   8,   8,   16,   16,       4,       3,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    48,    64,    64,   8,   8,   16,   16,       3,       2,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    96,    64,    32,   8,   8,   16,   16,       6,       2,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,     S<4, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    32,   128,   8,   8,   16,   16,       2,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              8,              8,         0,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    32,   128,   8,   8,   16,   16,       2,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    48,    32,   128,   8,   8,   16,   16,       3,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              6,              8,         1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    96,    64,   8,   8,   16,   16,       2,       3,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,      S<8, 8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    96,    64,    96,    48,   8,   8,   16,   16,       4,       2,     S<6, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         1,     S<6, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              6,              8,         0,           1,           1,                      S<1, 16, 1, 6>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>, // Incorrect results for f16
+    DeviceBatchedGemmMultiD_Wmma_CShuffleV3<     Col,     Row,   Tuple<>,    Row,          BF16,          BF16,    Tuple<>,          BF16,           F32,          BF16, PassThrough, PassThrough, PassThrough, GemmMNKPadding,    64,    32,    32,   128,   8,   8,   16,   16,       2,       1,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,              8,         0,     S<16, 4, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              8,         0,           1,           1,                      S<1, 16, 1, 4>,             S<8, 8, 8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
     // clang-format on
     >;
 
@@ -129,8 +150,7 @@ using device_gemm_wmma_universal_km_kn_mn_odd_n_instances = std::tuple<
     // clang-format on
     >;
 
-template <typename InOutDataType,
-          BlockGemmPipelineScheduler BlkGemmPipeSched>
+template <typename InOutDataType, BlockGemmPipelineScheduler BlkGemmPipeSched>
 using device_gemm_wmma_universal_km_kn_mn_irregular_odd_mn_instances = std::tuple<
     // clang-format off
     //#####################################| ALayout| BLayout| DsLayout |ELayout|     ADataType|     BDataType| DsDataType|     CDataType|   AccDataType|      CShuffle|           A|           B|         CDE|           GEMM| Block|  MPer|  NPer|  KPer| AK1| BK1| MPer| NPer| MRepeat| NRepeat|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|  BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds|    CShuffle|    CShuffle| CShuffleBlockTransferClusterLengths|  CShuffleBlockTransfer|     BlockwiseGemm|                BlockwiseGemm|
diff --git a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_two_stage_wmma_instance.hpp b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_two_stage_wmma_instance.hpp
index c3a7859b06..1a6266a840 100644
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_two_stage_wmma_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_two_stage_wmma_instance.hpp
@@ -52,9 +52,9 @@ using device_grouped_conv_bwd_weight_two_stage_nhwgc_wmma_c_shuffle_f16_instance
     DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,   128,    48,    64,   128,    8,   16,   16,       3,       1,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,                     4, Scheduler, PipelineVersion,         1>,
     DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,   128,    96,   128,    64,    8,   16,   16,       6,       2,       S<8, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<8, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,                     4, Scheduler, PipelineVersion,         1>,
     DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,   128,    64,    64,   128,    8,   16,   16,       4,       1,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              8,         0,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,                     4, Scheduler, PipelineVersion,         1>,
-    DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,   256,    96,   128,   128,    8,   16,   16,       6,       1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,       S<1, 16, 1, 16>,                     4, Scheduler, PipelineVersion,         1>,
-    DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         0,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,                     4, Scheduler, PipelineVersion,         1>,
-    DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,                     4, Scheduler, PipelineVersion,         1>
+    DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,   256,    96,   128,   128,    8,   16,   16,       6,       1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,       S<1, 16, 1, 16>,                     4, Scheduler, PipelineVersion,         1>
+    // DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         0,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,                     4, Scheduler, PipelineVersion,         1>, // Incorrect results for at least GemmDefault
+    // DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,                     4, Scheduler, PipelineVersion,         1> // Incorrect results for at least GemmDefault
     // clang-format on
     >;
 
@@ -118,7 +118,7 @@ using device_grouped_conv_bwd_weight_two_stage_ngchw_wmma_c_shuffle_f16_instance
     DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,   256,    96,   128,   128,    8,   16,   16,       6,       1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,       S<1, 16, 1, 16>,                     4, Scheduler, PipelineVersion,         1>,
     DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         0,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,                     4, Scheduler, PipelineVersion,         1>,
     DeviceGroupedConvBwdWeightTwoStage_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,                     4, Scheduler, PipelineVersion,         1>
-   // clang-format on
+    // clang-format on
     >;
 
 // device_grouped_conv_bwd_weight_two_stage_ngchw_wmma_c_shuffle_f16_part2_instances
diff --git a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_v3_wmma_instance.hpp b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_v3_wmma_instance.hpp
index 1263b13e5f..df666f413d 100644
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_v3_wmma_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_v3_wmma_instance.hpp
@@ -45,7 +45,7 @@ template <ck::index_t NDimSpatial,
           typename BLayout,
           typename ELayout,
           ConvolutionBackwardWeightSpecialization ConvSpec,
-          BlockGemmPipelineScheduler Scheduler = BlockGemmPipelineScheduler::Intrawave,
+          BlockGemmPipelineScheduler Scheduler     = BlockGemmPipelineScheduler::Intrawave,
           BlockGemmPipelineVersion PipelineVersion = BlockGemmPipelineVersion::v1>
 using device_grouped_conv_bwd_weight_v3_wmma_c_shuffle_f16_instances = std::tuple<
     // clang-format off
@@ -60,10 +60,10 @@ using device_grouped_conv_bwd_weight_v3_wmma_c_shuffle_f16_instances = std::tupl
     DeviceGroupedConvBwdWeight_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,   128,    48,    64,   128,    8,   16,   16,       3,       1,       S<16, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,                      8, Scheduler, PipelineVersion>,
     DeviceGroupedConvBwdWeight_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,   128,    96,   128,    64,    8,   16,   16,       6,       2,       S<8, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<8, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,                      8, Scheduler, PipelineVersion>,
     DeviceGroupedConvBwdWeight_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,   128,    64,    64,   128,    8,   16,   16,       4,       1,       S<16, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              8,         0,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,                      8, Scheduler, PipelineVersion>,
-    DeviceGroupedConvBwdWeight_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,   256,    96,   128,   128,    8,   16,   16,       6,       1,      S<16, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,       S<1, 16, 1, 16>,                      8, Scheduler, PipelineVersion>,
-    DeviceGroupedConvBwdWeight_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         0,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,                      8, Scheduler, PipelineVersion>,
-    DeviceGroupedConvBwdWeight_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,                      8, Scheduler, PipelineVersion>
-   // clang-format on
+    DeviceGroupedConvBwdWeight_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,   256,    96,   128,   128,    8,   16,   16,       6,       1,      S<16, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,       S<1, 16, 1, 16>,                      8, Scheduler, PipelineVersion>
+    // DeviceGroupedConvBwdWeight_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         0,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,                      8, Scheduler, PipelineVersion>, // Incorrect results for at least GemmDefault
+    // DeviceGroupedConvBwdWeight_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout,    F16,     F16,     F16,     F32, PassThrough, PassThrough, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,                      8, Scheduler, PipelineVersion>  // Incorrect results for at least GemmDefault
+    // clang-format on
     >;
 
 template <ck::index_t NDimSpatial,
@@ -71,7 +71,7 @@ template <ck::index_t NDimSpatial,
           typename BLayout,
           typename ELayout,
           ConvolutionBackwardWeightSpecialization ConvSpec,
-          BlockGemmPipelineScheduler Scheduler = BlockGemmPipelineScheduler::Intrawave,
+          BlockGemmPipelineScheduler Scheduler     = BlockGemmPipelineScheduler::Intrawave,
           BlockGemmPipelineVersion PipelineVersion = BlockGemmPipelineVersion::v1>
 using device_grouped_conv_bwd_weight_v3_wmma_c_shuffle_bf16_instances = std::tuple<
     // clang-format off
diff --git a/library/src/tensor_operation_instance/gpu/grouped_convnd_bwd_weight/explicit_wmma/bf16_bf16_bf16/device_grouped_convnd_bwd_weight_wmma_bf16_bf16_bf16_exp_comp_mnkpadding_instance.cpp b/library/src/tensor_operation_instance/gpu/grouped_convnd_bwd_weight/explicit_wmma/bf16_bf16_bf16/device_grouped_convnd_bwd_weight_wmma_bf16_bf16_bf16_exp_comp_mnkpadding_instance.cpp
index 3a60d2f4c9..a3b16e4216 100644
--- a/library/src/tensor_operation_instance/gpu/grouped_convnd_bwd_weight/explicit_wmma/bf16_bf16_bf16/device_grouped_convnd_bwd_weight_wmma_bf16_bf16_bf16_exp_comp_mnkpadding_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_convnd_bwd_weight/explicit_wmma/bf16_bf16_bf16/device_grouped_convnd_bwd_weight_wmma_bf16_bf16_bf16_exp_comp_mnkpadding_instance.cpp
@@ -32,7 +32,7 @@ void add_device_grouped_convnd_bwd_weight_wmma_bf16_bf16_bf16_exp_comp_mnkpaddin
         PassThrough,
         PassThrough,
         PassThrough,
-        device_gemm_wmma_universal_km_kn_mn_GemmMNKPadding_instances<BF16>>(instances);
+        device_gemm_wmma_universal_km_kn_mn_GemmMNKPadding_bf16_instances>(instances);
 }
 
 void add_device_grouped_convnd_bwd_weight_wmma_bf16_bf16_bf16_exp_comp_mnkpadding_instances(
@@ -58,7 +58,7 @@ void add_device_grouped_convnd_bwd_weight_wmma_bf16_bf16_bf16_exp_comp_mnkpaddin
         PassThrough,
         PassThrough,
         PassThrough,
-        device_gemm_wmma_universal_km_kn_mn_GemmMNKPadding_instances<BF16>>(instances);
+        device_gemm_wmma_universal_km_kn_mn_GemmMNKPadding_bf16_instances>(instances);
 }
 
 } // namespace instance
diff --git a/library/src/tensor_operation_instance/gpu/grouped_convnd_bwd_weight/explicit_wmma/fp16_fp16_fp16/device_grouped_convnd_bwd_weight_wmma_f16_f16_f16_exp_comp_mnkpadding_instance.cpp b/library/src/tensor_operation_instance/gpu/grouped_convnd_bwd_weight/explicit_wmma/fp16_fp16_fp16/device_grouped_convnd_bwd_weight_wmma_f16_f16_f16_exp_comp_mnkpadding_instance.cpp
index 7bf57a9505..b0a8998562 100644
--- a/library/src/tensor_operation_instance/gpu/grouped_convnd_bwd_weight/explicit_wmma/fp16_fp16_fp16/device_grouped_convnd_bwd_weight_wmma_f16_f16_f16_exp_comp_mnkpadding_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_convnd_bwd_weight/explicit_wmma/fp16_fp16_fp16/device_grouped_convnd_bwd_weight_wmma_f16_f16_f16_exp_comp_mnkpadding_instance.cpp
@@ -32,7 +32,7 @@ void add_device_grouped_convnd_bwd_weight_wmma_f16_f16_f16_exp_comp_mnkpadding_i
         PassThrough,
         PassThrough,
         PassThrough,
-        device_gemm_wmma_universal_km_kn_mn_GemmMNKPadding_instances<F16>>(instances);
+        device_gemm_wmma_universal_km_kn_mn_GemmMNKPadding_f16_instances>(instances);
 }
 
 void add_device_grouped_convnd_bwd_weight_wmma_f16_f16_f16_exp_comp_mnkpadding_instances(
@@ -58,7 +58,7 @@ void add_device_grouped_convnd_bwd_weight_wmma_f16_f16_f16_exp_comp_mnkpadding_i
         PassThrough,
         PassThrough,
         PassThrough,
-        device_gemm_wmma_universal_km_kn_mn_GemmMNKPadding_instances<F16>>(instances);
+        device_gemm_wmma_universal_km_kn_mn_GemmMNKPadding_f16_instances>(instances);
 }
 
 } // namespace instance