Add instances for scale and bilinear based on the bf16 NHWGC GKYXC tuning. Keep generic instances for support.

2026-06-30 19:57:40 +00:00 · 2025-12-05 13:37:51 +00:00
parent c2fab9d677
commit 6380f9ab81
2 changed files with 56 additions and 78 deletions
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_bilinear_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_bilinear_instance.hpp
@@ -45,27 +45,21 @@ using device_grouped_conv_bwd_weight_wmma_c_shuffle_f16_bilinear_instances = std
    //#################################################|     Spatial|         |          |          |               |       |        |        |        |           |   Operation|   Operation|   Operation| Specialization|      |      |      |      |     |     |     |        |        | Lengths_AK0_M_AK1|     ArrangeOrder|               |               |      PerVector|  PerVector_AK1|          | Lengths_BK0_N_BK1|   ArrangeOrder|               |              |      PerVector|  PerVector_BK1|          |  PerShuffle|  PerShuffle|      MBlock_MPerBlock|      _NPerBlock|                             Scheduler|                    Version  |
    //#################################################|            |         |          |          |               |       |        |        |        |           |            |            |            |               |      |      |      |      |     |     |     |        |        |                  |                 |               |               |               |               |          |                  |               |               |              |               |               |          |            |            |      NBlock_NPerBlock|                |                                      |                             |
    // generic instance
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              4,     true,            1,           1,        S<1, 16, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              4,     true,            1,           1,        S<1, 16, 1, 4>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // // instance for small conv.K
-    // // for fp16 conv.K and conv.C must be divisible by 2
-    // // since half_t atomic_add require scalar_per_x_vector % 2 == 0
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              1,     true,            1,           1,        S<1, 32, 1, 4>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   256,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,   256,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,   128,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    64,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    64,   128,    32,    8,   16,   16,       2,       4,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,    64,    32,    8,   16,   16,       2,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,    64,   128,    32,    8,   16,   16,       2,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    32,   128,    32,    8,   16,   16,       1,       4,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    32,    32,    8,   16,   16,       4,       1,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              4,         1,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              4,         1,            1,           1,        S<1, 16, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              4,         1,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              4,         1,            1,           1,        S<1, 16, 1, 4>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // for fp16 conv.K and conv.C must be divisible by 2
+    // since half_t atomic_add require scalar_per_x_vector % 2 == 0
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    32,    32,    32,    8,   16,   16,       2,       1,        S<4, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              2,         0,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              2,         0,            1,           1,         S<1, 8, 1, 8>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         0,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              4,              8,         0,            1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         1,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              4,              8,         0,            1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    64,    8,   16,   16,       4,       2,        S<8, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              8,         0,        S<8, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,   256,    64,    8,   16,   16,       8,       2,       S<8, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         1,       S<8, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,            1,           1,       S<1, 16, 1, 16>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    48,    64,   128,    8,   16,   16,       3,       1,       S<16, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,            1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    96,   128,    64,    8,   16,   16,       6,       2,       S<8, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<8, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,            1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    64,    64,   128,    8,   16,   16,       4,       1,       S<16, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              8,         0,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,            1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,    96,   128,   128,    8,   16,   16,       6,       1,      S<16, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,            1,           1,       S<1, 16, 1, 16>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         0,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,            1,           1,        S<1, 16, 1, 6>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>, // Presumably doesn't produce correct results for f16
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,    F16,     F16,     F16,     F32, Tuple<F16>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,            1,           1,        S<1, 16, 1, 6>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1> // Presumably doesn't produce correct results for f16
    // clang-format on
    >;

@@ -81,24 +75,19 @@ using device_grouped_conv_bwd_weight_wmma_c_shuffle_bf16_bilinear_instances = st
    //#################################################|     Spatial|         |          |          |               |       |        |        |        |           |   Operation|   Operation|   Operation| Specialization|      |      |      |      |     |     |     |        |        | Lengths_AK0_M_AK1|     ArrangeOrder|               |               |      PerVector|  PerVector_AK1|          | Lengths_BK0_N_BK1|   ArrangeOrder|               |              |      PerVector|  PerVector_BK1|          |  PerShuffle|  PerShuffle|      MBlock_MPerBlock|      _NPerBlock|                             Scheduler|                    Version  |
    //#################################################|            |         |          |          |               |       |        |        |        |           |            |            |            |               |      |      |      |      |     |     |     |        |        |                  |                 |               |               |               |               |          |                  |               |               |              |               |               |          |            |            |      NBlock_NPerBlock|                |                                      |                             |
    // generic instance
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              4,     true,            1,           1,        S<1, 16, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // // instance for small conv.K
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              1,     true,            1,           1,        S<1, 32, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   256,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 8>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,   256,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 8>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,   128,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    64,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    64,   128,    32,    8,   16,   16,       2,       4,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,    64,    32,    8,   16,   16,       2,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,    64,   128,    32,    8,   16,   16,       2,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    32,   128,    32,    8,   16,   16,       1,       4,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    32,    32,    8,   16,   16,       4,       1,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              4,         1,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              4,         1,           1,           1,        S<1, 16, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // other instances
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    32,    32,    32,    8,   16,   16,       2,       1,        S<4, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              2,         0,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              2,         0,           1,           1,         S<1, 8, 1, 8>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         0,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              4,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         1,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              4,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    64,    64,    64,    64,    8,   16,   16,       4,       2,        S<8, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              8,         0,        S<8, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,   128,   256,    64,    8,   16,   16,       8,       2,       S<8, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         1,       S<8, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,       S<1, 16, 1, 16>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    48,    64,   128,    8,   16,   16,       3,       1,       S<16, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    96,   128,    64,    8,   16,   16,       6,       2,       S<8, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<8, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   128,    64,    64,   128,    8,   16,   16,       4,       1,       S<16, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              8,         0,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,   256,    96,   128,   128,    8,   16,   16,       6,       1,      S<16, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,       S<1, 16, 1, 16>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         0,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>, 
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Tuple<BLayout>,   BF16,     F32,    BF16,     F32, Tuple<F32>, PassThrough,    Bilinear, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1> 
    // clang-format on
    >;

--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_scale_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_bwd_weight/device_grouped_conv_bwd_weight_wmma_scale_instance.hpp
@@ -45,27 +45,21 @@ using device_grouped_conv_bwd_weight_wmma_c_shuffle_f16_scale_instances = std::t
    //#################################################|     Spatial|         |          |          |            |       |        |        |        |            |   Operation|   Operation|   Operation| Specialization|      |      |      |      |     |     |     |        |        | Lengths_AK0_M_AK1|     ArrangeOrder|               |               |      PerVector|  PerVector_AK1|          | Lengths_BK0_N_BK1|   ArrangeOrder|               |              |      PerVector|  PerVector_BK1|          |  PerShuffle|  PerShuffle|      MBlock_MPerBlock|      _NPerBlock|                             Scheduler|                    Version  |
    //#################################################|            |         |          |          |            |       |        |        |        |            |            |            |            |               |      |      |      |      |     |     |     |        |        |                  |                 |               |               |               |               |          |                  |               |               |              |               |               |          |            |            |      NBlock_NPerBlock|                |                                      |                             |
    // generic instance
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              4,     true,            1,           1,        S<1, 16, 1, 4>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // // instance for small conv.K
-    // // for fp16 conv.K and conv.C must be divisible by 2
-    // // since half_t atomic_add require scalar_per_x_vector % 2 == 0
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              1,     true,            1,           1,        S<1, 32, 1, 4>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   256,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,   256,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,   128,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    64,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    64,   128,    32,    8,   16,   16,       2,       4,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,    64,    32,    8,   16,   16,       2,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,    64,   128,    32,    8,   16,   16,       2,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    32,   128,    32,    8,   16,   16,       1,       4,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    32,    32,    8,   16,   16,       4,       1,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
-    // clang-format on
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              4,         1,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              4,         1,           1,           1,        S<1, 16, 1, 4>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // for fp16 conv.K and conv.C must be divisible by 2
+    // since half_t atomic_add require scalar_per_x_vector % 2 == 0
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    32,    32,    32,    8,   16,   16,       2,       1,        S<4, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              2,         0,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              2,         0,           1,           1,         S<1, 8, 1, 8>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         0,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              4,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         1,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              4,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    64,    8,   16,   16,       4,       2,        S<8, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              8,         0,        S<8, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,   256,    64,    8,   16,   16,       8,       2,       S<8, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         1,       S<8, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,       S<1, 16, 1, 16>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    48,    64,   128,    8,   16,   16,       3,       1,       S<16, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    96,   128,    64,    8,   16,   16,       6,       2,       S<8, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<8, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    64,    64,   128,    8,   16,   16,       4,       1,       S<16, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              8,         0,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,    96,   128,   128,    8,   16,   16,       6,       1,      S<16, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,       S<1, 16, 1, 16>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         0,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>, // Presumably doesn't produce correct results for fp16
+    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,    F16,     F16,     F16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1> // Presumably doesn't produce correct results for fp16
+   // clang-format on
    >;

 template <ck::index_t NDimSpatial,
@@ -80,24 +74,19 @@ using device_grouped_conv_bwd_weight_wmma_c_shuffle_bf16_scale_instances = std::
    //#################################################|     Spatial|         |          |          |            |       |        |        |        |            |   Operation|   Operation|   Operation| Specialization|      |      |      |      |     |     |     |        |        | Lengths_AK0_M_AK1|     ArrangeOrder|               |               |      PerVector|  PerVector_AK1|          | Lengths_BK0_N_BK1|   ArrangeOrder|               |              |      PerVector|  PerVector_BK1|          |  PerShuffle|  PerShuffle|      MBlock_MPerBlock|      _NPerBlock|                             Scheduler|                    Version  |
    //#################################################|            |         |          |          |            |       |        |        |        |            |            |            |            |               |      |      |      |      |     |     |     |        |        |                  |                 |               |               |               |               |          |                  |               |               |              |               |               |          |            |            |      NBlock_NPerBlock|                |                                      |                             |
    // generic instance
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              4,     true,            1,           1,        S<1, 16, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // // instance for small conv.K
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              1,     true,            1,           1,        S<1, 32, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   256,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 8>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,   256,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 8>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       4,       4,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,   128,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    64,    32,    8,   16,   16,       4,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    64,   128,    32,    8,   16,   16,       2,       4,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,    64,    32,    8,   16,   16,       2,       2,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,    64,   128,    32,    8,   16,   16,       2,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,    32,    32,    8,   16,   16,       4,       1,       S<4, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              1,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    32,   128,    32,    8,   16,   16,       1,       4,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              1,      true,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 32, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    32,    32,    8,   16,   16,       4,       1,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              4,      true,       S<4,  4, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              2,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
-    // DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    32,    64,    32,    8,   16,   16,       2,       2,       S<4,  4, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              2,      true,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              4,     true,            1,           1,        S<1, 16, 1, 4>,               4, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    32,    8,   16,   16,       4,       2,       S<4,  8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              1,              4,         1,       S<4,  8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              1,              4,         1,           1,           1,        S<1, 16, 1, 4>,               1, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    // other instances
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    32,    32,    32,    8,   16,   16,       2,       1,        S<4, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              2,              2,         0,       S<4, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              2,              2,         0,           1,           1,         S<1, 8, 1, 8>,               2, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         0,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              4,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,   128,   128,    32,    8,   16,   16,       8,       2,       S<4, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         1,       S<4, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              4,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    64,    64,    64,    64,    8,   16,   16,       4,       2,        S<8, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              8,         0,        S<8, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 4>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,   128,   256,    64,    8,   16,   16,       8,       2,       S<8, 32, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              4,              8,         1,       S<8, 32, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,       S<1, 16, 1, 16>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    48,    64,   128,    8,   16,   16,       3,       1,       S<16, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    96,   128,    64,    8,   16,   16,       6,       2,       S<8, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<8, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   128,    64,    64,   128,    8,   16,   16,       4,       1,       S<16, 8, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              8,              8,         0,       S<16, 8, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,        S<1, 16, 1, 8>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,   256,    96,   128,   128,    8,   16,   16,       6,       1,      S<16, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,      S<16, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              8,              8,         0,           1,           1,       S<1, 16, 1, 16>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>,
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         0,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1>, 
+    DeviceGroupedConvBwdWeightMultipleD_Wmma_CShuffleV3< NDimSpatial,  ALayout,   BLayout,   ELayout, Empty_Tuple,   BF16,     F32,    BF16,     F32, Empty_Tuple, PassThrough,       Scale, PassThrough,       ConvSpec,    96,    96,    96,    48,    8,   16,   16,       6,       2,       S<6, 16, 1>,       S<2, 0, 1>,     S<1, 0, 2>,              1,              6,              8,         1,       S<6, 16, 1>,     S<2, 0, 1>,     S<1, 0, 2>,             1,              6,              8,         0,           1,           1,        S<1, 16, 1, 6>,               8, BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1> 
    // clang-format on
    >;