Wmma support for gemm_ab_scale (#3314)

* Support gemm_ab_scale: - Add tests - Integrate scaling implementation in multiple D - Generalize existing b_scale for ab_scale - Add instances - Generalize implementation for ScaleBlockM, ScaleBlockN, ScaleBlockK - Add support for all layouts supported by xdl - Fix splitk xdl * Fix copyright * Wmma support for gemm_blockscale_wp (#3315) * Support for preshuffle with ab scale - add support for b preshuffle in GridwiseGemm_wmma_cshuffle_v3_ab_scale - add support for AScaleLayout amnd BScaleLayout (can be different from ALayout and BLayout, respectively) - add Run method in v1 pipeline to support preshuffle + scaling - add support for preshuffle gemms in common invoker - Add splitk support * Fix copyright header
2026-05-12 01:10:17 +00:00 · 2025-12-11 09:06:20 +01:00
parent d66e5f667c
commit ce99cab605
51 changed files with 5144 additions and 552 deletions
--- a/library/src/tensor_operation_instance/gpu/CMakeLists.txt
+++ b/library/src/tensor_operation_instance/gpu/CMakeLists.txt
@@ -103,6 +103,16 @@ function(add_instance_library INSTANCE_NAME)
            message(DEBUG "removing gemm_universal_preshuffle_f8 instance ${source} ")
            list(REMOVE_ITEM ARGN "${source}")
        endif()
+        # Do not build gemm_ab_scale_f8 for any targets except gfx94, gfx95 and gfx12
+        if(NOT (INST_TARGETS MATCHES "gfx942" OR INST_TARGETS MATCHES "gfx950" OR INST_TARGETS MATCHES "gfx12") AND (source_name MATCHES "gemm_ab_scale") AND (source_name MATCHES "_f8_f8_"))
+            message(DEBUG "removing gemm_ab_scale_f8 instance ${source} ")
+            list(REMOVE_ITEM ARGN "${source}")
+        endif()
+        # Do not build gemm_blockscale_wp_f8 for any targets except gfx94, gfx95 and gfx12
+        if(NOT (INST_TARGETS MATCHES "gfx942" OR INST_TARGETS MATCHES "gfx950" OR INST_TARGETS MATCHES "gfx12") AND (source_name MATCHES "gemm_blockscale_wp") AND (source_name MATCHES "_f8_f8_"))
+            message(DEBUG "removing gemm_blockscale_wp_f8 instance ${source} ")
+            list(REMOVE_ITEM ARGN "${source}")
+        endif()
        # Only build tf32 instances for gfx942 & gfx950
        if(source_name MATCHES "_tf32_")
            if(NOT ((INST_TARGETS MATCHES "gfx942|gfx950") AND CK_ENABLE_TF32))
@@ -300,7 +310,7 @@ FOREACH(subdir_path ${dir_list})
            message(DEBUG "Found gemm_multiply_multiply instances, but gfx94/gfx95/gfx11/gfx12 not on the target list. Skipping. ${cmake_instance}")
            set(add_inst 0)
        endif()
-        if(("${cmake_instance}" MATCHES "gemm_universal_preshuffle|gemm_blockscale" AND "${cmake_instance}" MATCHES "_f8_" ) AND (NOT INST_TARGETS MATCHES "gfx94|gfx95|gfx12") AND (NOT CK_USE_FP8_ON_UNSUPPORTED_ARCH))
+        if(("${cmake_instance}" MATCHES "gemm_universal_preshuffle|gemm_blockscale|gemm_ab_scale" AND "${cmake_instance}" MATCHES "_f8_" ) AND (NOT INST_TARGETS MATCHES "gfx94|gfx95|gfx12") AND (NOT CK_USE_FP8_ON_UNSUPPORTED_ARCH))
            message(DEBUG "Found gemm_f8 instances, but gfx94/gfx95 not on the target list. Skipping.")
            set(add_inst 0)
        endif()
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/CMakeLists.txt
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/CMakeLists.txt
@@ -1,21 +1,38 @@
 # Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
 # SPDX-License-Identifier: MIT

-# ONLY XDL_KERNELS
+# ONLY XDL_AND_WMMA_KERNELS
 set(GEMM_AB_SCALE_INSTANCES)

 list(APPEND GEMM_AB_SCALE_INSTANCES 
        # Row, Col
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_comp_default_instance.cpp
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_comp_kpadding_instance.cpp
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_default_instance.cpp
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_kpadding_instance.cpp
+
        device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_nk_mn_128_128_128_comp_default_instance.cpp
        device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_nk_mn_128_128_128_comp_kpadding_instance.cpp
        device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_default_instance.cpp
        device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_kpadding_instance.cpp
+
        # Row, Row
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_comp_default_instance.cpp
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_comp_kpadding_instance.cpp
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_mem_v1_default_instance.cpp
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_mem_v1_kpadding_instance.cpp
+
        device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_kn_mn_128_128_128_comp_default_instance.cpp
        device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_kn_mn_128_128_128_comp_kpadding_instance.cpp
        device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_kn_mn_128_128_128_mem_v1_default_instance.cpp
        device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_kn_mn_128_128_128_mem_v1_kpadding_instance.cpp
+
        # Col, Row
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_comp_default_instance.cpp
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_comp_kpadding_instance.cpp
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_mem_v1_default_instance.cpp
+        device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_mem_v1_kpadding_instance.cpp
+
        device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_km_kn_mn_128_128_128_comp_default_instance.cpp
        device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_km_kn_mn_128_128_128_comp_kpadding_instance.cpp
        device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_km_kn_mn_128_128_128_mem_v1_default_instance.cpp
@@ -27,11 +44,13 @@ set_source_files_properties(device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_s
 set_source_files_properties(device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_nk_mn_128_128_128_comp_kpadding_instance.cpp PROPERTIES COMPILE_OPTIONS ";-mllvm;-greedy-reverse-local-assignment=1")
 set_source_files_properties(device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_default_instance.cpp PROPERTIES COMPILE_OPTIONS ";-mllvm;-greedy-reverse-local-assignment=1")
 set_source_files_properties(device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_kpadding_instance.cpp PROPERTIES COMPILE_OPTIONS ";-mllvm;-greedy-reverse-local-assignment=1")
+
 # Row, Row
 set_source_files_properties(device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_kn_mn_128_128_128_comp_default_instance.cpp PROPERTIES COMPILE_OPTIONS ";-mllvm;-greedy-reverse-local-assignment=1")
 set_source_files_properties(device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_kn_mn_128_128_128_comp_kpadding_instance.cpp PROPERTIES COMPILE_OPTIONS ";-mllvm;-greedy-reverse-local-assignment=1")
 set_source_files_properties(device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_kn_mn_128_128_128_mem_v1_default_instance.cpp PROPERTIES COMPILE_OPTIONS ";-mllvm;-greedy-reverse-local-assignment=1")
 set_source_files_properties(device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_mk_kn_mn_128_128_128_mem_v1_kpadding_instance.cpp PROPERTIES COMPILE_OPTIONS ";-mllvm;-greedy-reverse-local-assignment=1")
+
 # Col, Row
 set_source_files_properties(device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_km_kn_mn_128_128_128_comp_default_instance.cpp PROPERTIES COMPILE_OPTIONS ";-mllvm;-greedy-reverse-local-assignment=1")
 set_source_files_properties(device_gemm_ab_scale_xdl_f8_f8_bf16/device_gemm_ab_scale_xdl_f8_f8_bf16_km_kn_mn_128_128_128_comp_kpadding_instance.cpp PROPERTIES COMPILE_OPTIONS ";-mllvm;-greedy-reverse-local-assignment=1")
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128.hpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128.hpp
@@ -0,0 +1,79 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "ck/ck.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_gemm_multiple_d_wmma_cshuffle_v3_ab_scale.hpp"
+
+#include "ck/library/tensor_operation_instance/add_device_operation_instance.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+using F8   = f8_t;
+using BF16 = bhalf_t;
+using F32  = float;
+
+using Row = tensor_layout::gemm::RowMajor;
+using Col = tensor_layout::gemm::ColumnMajor;
+
+template <index_t... Is>
+using S = Sequence<Is...>;
+
+using PassThrough = element_wise::PassThrough;
+using PassThrough = element_wise::PassThrough;
+
+static constexpr auto GemmDefault    = GemmSpecialization::Default;
+static constexpr auto GemmKPadding   = GemmSpecialization::KPadding;
+static constexpr auto GemmMNPadding  = GemmSpecialization::MNPadding;
+static constexpr auto GemmMNKPadding = GemmSpecialization::MNKPadding;
+
+static constexpr auto Intrawave = BlockGemmPipelineScheduler::Intrawave;
+
+template <GemmSpecialization GemmSpec>
+using device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_1_128_128_comp_instances = std::tuple<
+    // clang-format off
+        //#######################################| ALayout| BLayout|       DsLayout| ELayout|      AData|      BData|     DsData| EData| AccData| Cshuffle|           A|           B|           C|           GEMM| Block| Scale| Scale| Scale|  MPer|  NPer|  KPer| AK1| BK1|MPer| NPer| MRepeat| NRepeat|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|   BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds| CShuffle   | CShuffle   |     CBlockTransferClusterLengths  |  CShuffleBlockTransfer|                         Block-wiseGemm|               Block-wiseGemm|
+        //#######################################|        |        |               |        |       Type|       Type|       Type|  Type|    Type|     Type| Elementwise| Elementwise| Elementwise| Specialization|  Size| Block| Block| Block| Block| Block| Block|    |    |Wmma| Wmma|        |        |   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|    ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN| MRepeat    | NRepeat    | _MBlock_MPerBlock_NBlock_NPerBlock|        ScalarPerVector|                               Pipeline|                     Pipeline|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |   Operation|   Operation|   Operation|               |      |     M|     N|     K|      |      |      |    |    |    |     |        |        | Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          |  Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          | PerShuffle | PerShuffle |                                   |                       |                              Scheduler|                      Version|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |            |            |            |               |      |      |      |      |      |      |      |    |    |    |     |        |        |                |               |               |               |               |               |          |                 |               |               |              |               |               |          |            |            |                                   |                       |                                       |                             |
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,   128,   128,   128,  16,  16,  16,   16,       4,       2,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,   128,    64,   128,  16,  16,  16,   16,       2,       2,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                     S<1, 64, 1, 4>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,   128,   128,  16,  16,  16,   16,       2,       2,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              2,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,    64,   128,  16,  16,  16,   16,       2,       1,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              2,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,   128,   128,   128,  16,  16,  16,   16,       4,       2,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,   128,    64,   128,  16,  16,  16,   16,       2,       2,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              4,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                     S<1, 64, 1, 4>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,   128,   128,  16,  16,  16,   16,       2,       2,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              2,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,    64,   128,  16,  16,  16,   16,       2,       1,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              2,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>
+    // clang-format on
+    >;
+
+template <BlockGemmPipelineScheduler BlkGemmPipeSched, GemmSpecialization GemmSpec>
+using device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_1_128_128_mem_instances = std::tuple<
+    // clang-format off
+        //#######################################| ALayout| BLayout|       DsLayout| ELayout|      AData|      BData|     DsData| EData| AccData| Cshuffle|           A|           B|           C|           GEMM| Block| Scale| Scale| Scale|  MPer|  NPer|  KPer| AK1| BK1|MPer| NPer| MRepeat| NRepeat|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|   BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds| CShuffle   | CShuffle   |     CBlockTransferClusterLengths  |  CShuffleBlockTransfer|                         Block-wiseGemm|               Block-wiseGemm|
+        //#######################################|        |        |               |        |       Type|       Type|       Type|  Type|    Type|     Type| Elementwise| Elementwise| Elementwise| Specialization|  Size| Block| Block| Block| Block| Block| Block|    |    |Wmma| Wmma|        |        |   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|    ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN| MRepeat    | NRepeat    | _MBlock_MPerBlock_NBlock_NPerBlock|        ScalarPerVector|                               Pipeline|                     Pipeline|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |   Operation|   Operation|   Operation|               |      |     M|     N|     K|      |      |      |    |    |    |     |        |        | Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          |  Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          | PerShuffle | PerShuffle |                                   |                       |                              Scheduler|                      Version|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |            |            |            |               |      |      |      |      |      |      |      |    |    |    |     |        |        |                |               |               |               |               |               |          |                 |               |               |              |               |               |          |            |            |                                   |                       |                                       |                             |
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    16,   256,   128,   8,  16,  16,   16,       1,       2,    S<16, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              1,              8,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    16,   128,   128,   8,  16,  16,   16,       1,       1,    S<16, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              1,              8,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   128,     1,   128,   128,    16,    64,   128,   8,  16,  16,   16,       1,       1,    S<16,  8, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              2,              8,         0,     S< 8, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                    S<1, 16, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    32,   256,   128,  16,  16,  16,   16,       2,       2,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              1,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    32,   128,   128,  16,  16,  16,   16,       2,       1,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              1,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    32,    64,   128,  16,  16,  16,   16,       1,       1,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              1,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,   256,   128,  16,  16,  16,   16,       4,       2,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              2,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,   128,   128,  16,  16,  16,   16,       4,       1,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              2,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Col,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,    64,   128,  16,  16,  16,   16,       2,       1,    S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,              1,              2,             16,         0,     S< 8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>
+    // clang-format on
+    >;
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_comp_default_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_comp_default_instance.cpp
@@ -0,0 +1,37 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_1_128_128_comp_default_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Col,
+                                                                  Row,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_1_128_128_comp_instances<GemmDefault>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_comp_kpadding_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_comp_kpadding_instance.cpp
@@ -0,0 +1,37 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_1_128_128_comp_kpadding_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Col,
+                                                                  Row,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_1_128_128_comp_instances<GemmKPadding>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_mem_v1_default_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_mem_v1_default_instance.cpp
@@ -0,0 +1,38 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_1_128_128_mem_v1_default_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Col,
+                                                                  Row,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_1_128_128_mem_instances<Intrawave,
+                                                                              GemmDefault>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_mem_v1_kpadding_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128_mem_v1_kpadding_instance.cpp
@@ -0,0 +1,38 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_1_128_128_mem_v1_kpadding_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Col,
+                                                                  Row,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_km_kn_mn_1_128_128_mem_instances<Intrawave,
+                                                                              GemmKPadding>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128.hpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128.hpp
@@ -0,0 +1,80 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "ck/ck.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_gemm_multiple_d_wmma_cshuffle_v3_ab_scale.hpp"
+
+#include "ck/library/tensor_operation_instance/add_device_operation_instance.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+using F8   = f8_t;
+using BF16 = bhalf_t;
+using F32  = float;
+
+using Row = tensor_layout::gemm::RowMajor;
+using Col = tensor_layout::gemm::ColumnMajor;
+
+template <index_t... Is>
+using S = Sequence<Is...>;
+
+using PassThrough = element_wise::PassThrough;
+using PassThrough = element_wise::PassThrough;
+
+static constexpr auto GemmDefault    = GemmSpecialization::Default;
+static constexpr auto GemmKPadding   = GemmSpecialization::KPadding;
+static constexpr auto GemmMNPadding  = GemmSpecialization::MNPadding;
+static constexpr auto GemmMNKPadding = GemmSpecialization::MNKPadding;
+
+static constexpr auto Intrawave = BlockGemmPipelineScheduler::Intrawave;
+
+template <GemmSpecialization GemmSpec>
+using device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_1_128_128_comp_instances = std::tuple<
+    // clang-format off
+        //#######################################| ALayout| BLayout|       DsLayout| ELayout|      AData|      BData|     DsData| EData| AccData| Cshuffle|           A|           B|           C|           GEMM| Block| Scale| Scale| Scale|  MPer|  NPer|  KPer| AK1| BK1|MPer| NPer| MRepeat| NRepeat|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|   BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds| CShuffle   | CShuffle   |     CBlockTransferClusterLengths  |  CShuffleBlockTransfer|                         Block-wiseGemm|               Block-wiseGemm|
+        //#######################################|        |        |               |        |       Type|       Type|       Type|  Type|    Type|     Type| Elementwise| Elementwise| Elementwise| Specialization|  Size| Block| Block| Block| Block| Block| Block|    |    |Wmma| Wmma|        |        |   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|    ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN| MRepeat    | NRepeat    | _MBlock_MPerBlock_NBlock_NPerBlock|        ScalarPerVector|                               Pipeline|                     Pipeline|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |   Operation|   Operation|   Operation|               |      |     M|     N|     K|      |      |      |    |    |    |     |        |        | Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          |  Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          | PerShuffle | PerShuffle |                                   |                       |                              Scheduler|                      Version|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |            |            |            |               |      |      |      |      |      |      |      |    |    |    |     |        |        |                |               |               |               |               |               |          |                 |               |               |              |               |               |          |            |            |                                   |                       |                                       |                             |
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,   128,   128,   128,  16,  16,  16,   16,       4,       2,     S<8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,   128,    64,   128,  16,  16,  16,   16,       2,       2,     S<8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                     S<1, 64, 1, 4>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,   128,   128,  16,  16,  16,   16,       2,       2,     S<8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,    64,   128,  16,  16,  16,   16,       2,       1,     S<8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,   128,   128,   128,  16,  16,  16,   16,       4,       2,     S<8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,   128,    64,   128,  16,  16,  16,   16,       2,       2,     S<8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                     S<1, 64, 1, 4>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,   128,   128,  16,  16,  16,   16,       2,       2,     S<8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,    64,   128,  16,  16,  16,   16,       2,       1,     S<8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>
+    // clang-format on
+    >;
+
+template <BlockGemmPipelineScheduler BlkGemmPipeSched, GemmSpecialization GemmSpec>
+using device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_1_128_128_mem_instances = std::tuple<
+    // clang-format off
+        //#######################################| ALayout| BLayout|       DsLayout| ELayout|      AData|      BData|     DsData| EData| AccData| Cshuffle|           A|           B|           C|           GEMM| Block| Scale| Scale| Scale|  MPer|  NPer|  KPer| AK1| BK1|MPer| NPer| MRepeat| NRepeat|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|   BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds| CShuffle   | CShuffle   |     CBlockTransferClusterLengths  |  CShuffleBlockTransfer|                         Block-wiseGemm|               Block-wiseGemm|
+        //#######################################|        |        |               |        |       Type|       Type|       Type|  Type|    Type|     Type| Elementwise| Elementwise| Elementwise| Specialization|  Size| Block| Block| Block| Block| Block| Block|    |    |Wmma| Wmma|        |        |   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|    ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN| MRepeat    | NRepeat    | _MBlock_MPerBlock_NBlock_NPerBlock|        ScalarPerVector|                               Pipeline|                     Pipeline|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |   Operation|   Operation|   Operation|               |      |     M|     N|     K|      |      |      |    |    |    |     |        |        | Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          |  Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          | PerShuffle | PerShuffle |                                   |                       |                              Scheduler|                      Version|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |            |            |            |               |      |      |      |      |      |      |      |    |    |    |     |        |        |                |               |               |               |               |               |          |                 |               |               |              |               |               |          |            |            |                                   |                       |                                       |                             |
+        // Memory friendly 
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    16,   256,   128,   8,  16,  16,   16,       1,       2,    S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    16,   128,   128,   8,  16,  16,   16,       1,       1,    S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   128,     1,   128,   128,    16,    64,   128,   8,  16,  16,   16,       1,       1,    S<16,  8, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,         0,      S<8, 16, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                    S<1, 16, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    32,   256,   128,  16,  16,  16,   16,       2,       2,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    32,   128,   128,  16,  16,  16,   16,       2,       1,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    32,    64,   128,  16,  16,  16,   16,       1,       1,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,   256,   128,  16,  16,  16,   16,       4,       2,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              8,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,   128,   128,  16,  16,  16,   16,       4,       1,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              4,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Row,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough, PassThrough,       GemmSpec,   256,     1,   128,   128,    64,    64,   128,  16,  16,  16,   16,       2,       1,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,      S<8, 32, 1>,     S<0, 2, 1>,     S<0, 2, 1>,             1,              2,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>
+    // clang-format on
+    >;
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_comp_default_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_comp_default_instance.cpp
@@ -0,0 +1,37 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_1_128_128_comp_default_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Row,
+                                                                  Row,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_1_128_128_comp_instances<GemmDefault>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_comp_kpadding_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_comp_kpadding_instance.cpp
@@ -0,0 +1,37 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_1_128_128_comp_kpadding_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Row,
+                                                                  Row,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_1_128_128_comp_instances<GemmKPadding>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_mem_v1_default_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_mem_v1_default_instance.cpp
@@ -0,0 +1,38 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_1_128_128_mem_v1_default_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Row,
+                                                                  Row,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_1_128_128_mem_instances<Intrawave,
+                                                                              GemmDefault>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_mem_v1_kpadding_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128_mem_v1_kpadding_instance.cpp
@@ -0,0 +1,38 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_1_128_128_mem_v1_kpadding_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Row,
+                                                                  Row,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_mk_kn_mn_1_128_128_mem_instances<Intrawave,
+                                                                              GemmKPadding>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128.hpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128.hpp
@@ -0,0 +1,95 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "ck/ck.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_gemm_multiple_d_wmma_cshuffle_v3_ab_scale.hpp"
+
+#include "ck/library/tensor_operation_instance/add_device_operation_instance.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+using F8   = f8_t;
+using BF16 = bhalf_t;
+using F32  = float;
+
+using Row = tensor_layout::gemm::RowMajor;
+using Col = tensor_layout::gemm::ColumnMajor;
+
+template <index_t... Is>
+using S = Sequence<Is...>;
+
+using PassThrough = element_wise::PassThrough;
+using PassThrough = element_wise::PassThrough;
+
+static constexpr auto GemmDefault    = GemmSpecialization::Default;
+static constexpr auto GemmKPadding   = GemmSpecialization::KPadding;
+static constexpr auto GemmMNPadding  = GemmSpecialization::MNPadding;
+static constexpr auto GemmMNKPadding = GemmSpecialization::MNKPadding;
+
+static constexpr auto Intrawave = BlockGemmPipelineScheduler::Intrawave;
+
+template <GemmSpecialization GemmSpec>
+using device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_comp_instances = std::tuple<
+    // clang-format off
+        //#######################################| ALayout| BLayout|       DsLayout| ELayout|      AData|      BData|     DsData| EData| AccData| Cshuffle|           A|           B|              C|          GEMM| Block| Scale| Scale| Scale|  MPer|  NPer|  KPer| AK1| BK1|MPer| NPer| MRepeat| NRepeat|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|   BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds| CShuffle   | CShuffle   |     CBlockTransferClusterLengths  |  CShuffleBlockTransfer|                         Block-wiseGemm|               Block-wiseGemm|
+        //#######################################|        |        |               |        |       Type|       Type|       Type|  Type|    Type|     Type| Elementwise| Elementwise|    Elementwise|Specialization|  Size| Block| Block| Block| Block| Block| Block|    |    |Wmma| Wmma|        |        |   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|    ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN| MRepeat    | NRepeat    | _MBlock_MPerBlock_NBlock_NPerBlock|        ScalarPerVector|                               Pipeline|                     Pipeline|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |   Operation|   Operation|      Operation|              |      |     M|     N|     K|      |      |      |    |    |    |     |        |        | Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          |  Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          | PerShuffle | PerShuffle |                                   |                       |                              Scheduler|                      Version|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |            |            |               |              |      |      |      |      |      |      |      |    |    |    |     |        |        |                |               |               |               |               |               |          |                 |               |               |              |               |               |          |            |            |                                   |                       |                                       |                             |
+
+        // Compute friendly
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,   128,   128,   128,  16,  16,  16,   16,       4,       2,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,   128,    64,   128,  16,  16,  16,   16,       2,       2,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  4>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,   128,   128,  16,  16,  16,   16,       2,       2,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,    64,   128,  16,  16,  16,   16,       2,       1,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,   128,   128,   128,  16,  16,  16,   16,       4,       2,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,   128,    64,   128,  16,  16,  16,   16,       2,       2,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  4>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,   128,   128,  16,  16,  16,   16,       2,       2,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,    64,   128,  16,  16,  16,   16,       2,       1,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,   128,   128,    64,  16,  16,  16,   16,       4,       2,    S< 4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,    64,    64,  16,  16,  16,   16,       2,       1,    S< 4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v3, F8>,
+
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,   128,   128,    64,  16,  16,  16,   16,       4,       2,    S< 4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,    64,    64,  16,  16,  16,   16,       2,       1,    S< 4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>
+    // clang-format on
+    >;
+
+template <BlockGemmPipelineScheduler BlkGemmPipeSched, GemmSpecialization GemmSpec>
+using device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_mem_instances = std::tuple<
+    // clang-format off
+        //#######################################| ALayout| BLayout|       DsLayout| ELayout|      AData|      BData|     DsData| EData| AccData| Cshuffle|           A|           B|              C|          GEMM| Block| Scale| Scale| Scale|  MPer|  NPer|  KPer| AK1| BK1|MPer| NPer| MRepeat| NRepeat|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|   BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds| CShuffle   | CShuffle   |     CBlockTransferClusterLengths  |  CShuffleBlockTransfer|    Block-wiseGemm|               Block-wiseGemm|
+        //#######################################|        |        |               |        |       Type|       Type|       Type|  Type|    Type|     Type| Elementwise| Elementwise|    Elementwise|Specialization|  Size| Block| Block| Block| Block| Block| Block|    |    |Wmma| Wmma|        |        |   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|    ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN| MRepeat    | NRepeat    | _MBlock_MPerBlock_NBlock_NPerBlock|        ScalarPerVector|          Pipeline|                     Pipeline|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |   Operation|   Operation|      Operation|              |      |     M|     N|     K|      |      |      |    |    |    |     |        |        | Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          |  Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          | PerShuffle | PerShuffle |                                   |                       |         Scheduler|                      Version|
+        //#######################################|        |        |               |        |           |           |           |      |        |         |            |            |               |              |      |      |      |      |      |      |      |    |    |    |     |        |        |                |               |               |               |               |               |          |                 |               |               |              |               |               |          |            |            |                                   |                       |                  |                             |
+
+        // Memory friendly
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    16,   256,   128,   8,  16,  16,   16,       1,       2,    S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           2,                    S<1, 16, 1,  8>,                   S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    16,   128,   128,   8,  16,  16,   16,       1,       1,    S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1,  8>,                   S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   128,     1,   128,   128,    16,    64,   128,   8,  16,  16,   16,       1,       1,    S< 8, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,         0,     S< 8, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1,  8>,                   S<4>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    16,   128,   256,   8,  16,  16,   16,       1,       1,    S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,         0,     S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   128,     1,   128,   128,    16,    64,   256,   8,  16,  16,   16,       1,       1,    S< 8, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,         0,     S<16,  8, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1,  8>,                   S<4>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    32,   256,   128,  16,  16,  16,   16,       1,       4,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1, 8>,                    S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    32,   128,   128,  16,  16,  16,   16,       2,       1,    S< 8, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 8>,                    S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    32,    64,   128,  16,  16,  16,   16,       1,       1,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1, 8>,                    S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    32,   128,   256,  16,  16,  16,   16,       1,       2,    S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1, 8>,                    S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   128,     1,   128,   128,    32,    64,   256,  16,  16,  16,   16,       2,       1,    S<16,  8, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S<16,  8, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 8>,                    S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,   256,   128,  16,  16,  16,   16,       2,       4,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1, 8>,                    S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,   128,   128,  16,  16,  16,   16,       2,       2,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1, 8>,                    S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,    64,   128,  16,  16,  16,   16,       2,       1,    S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1, 8>,                    S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,   128,   256,  16,  16,  16,   16,       2,       2,    S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1, 8>,                    S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_ABScale_Wmma_CShuffle_V3<     Row,     Col,        Tuple<>,     Row,    F8, F32,    F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,    64,   256,  16,  16,  16,   16,       2,       1,    S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,             16,         0,     S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1, 8>,                    S<8>,  BlkGemmPipeSched, BlockGemmPipelineVersion::v1, F8>
+    // clang-format on
+    >;
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_comp_default_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_comp_default_instance.cpp
@@ -0,0 +1,37 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_comp_default_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Row,
+                                                                  Col,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_comp_instances<GemmDefault>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_comp_kpadding_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_comp_kpadding_instance.cpp
@@ -0,0 +1,37 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_comp_kpadding_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Row,
+                                                                  Col,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_comp_instances<GemmKPadding>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_default_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_default_instance.cpp
@@ -0,0 +1,38 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_mem_v1_default_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Row,
+                                                                  Col,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_mem_instances<Intrawave,
+                                                                              GemmDefault>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_kpadding_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_ab_scale/device_gemm_ab_scale_wmma_f8_f8_bf16/device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_kpadding_instance.cpp
@@ -0,0 +1,38 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_mem_v1_kpadding_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_ABScaleSplitK<Row,
+                                                                  Col,
+                                                                  Tuple<>,
+                                                                  Row,
+                                                                  F8,
+                                                                  F32,
+                                                                  F8,
+                                                                  F32,
+                                                                  Tuple<>,
+                                                                  BF16,
+                                                                  1,
+                                                                  128,
+                                                                  128,
+                                                                  PassThrough,
+                                                                  PassThrough,
+                                                                  PassThrough>>>& instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_ab_scale_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_mem_instances<Intrawave,
+                                                                              GemmKPadding>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_blockscale_wp/CMakeLists.txt
+++ b/library/src/tensor_operation_instance/gpu/gemm_blockscale_wp/CMakeLists.txt
@@ -1,7 +1,7 @@
 # Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
 # SPDX-License-Identifier: MIT

-# ONLY XDL_KERNELS
+# ONLY XDL_AND_WMMA_KERNELS
 if(SUPPORTED_GPU_TARGETS MATCHES "gfx9[45]|gfx12")
        set(GEMM_BLOCKSCALE_WP_INSTANCES)

@@ -10,6 +10,9 @@ if(SUPPORTED_GPU_TARGETS MATCHES "gfx9[45]|gfx12")
                device_gemm_blockscale_wp_xdl_f8_f8_bf16/device_gemm_blockscale_wp_xdl_f8_f8_bf16_mk_nk_mn_128_128_128_comp_kpadding_instance.cpp
                device_gemm_blockscale_wp_xdl_f8_f8_bf16/device_gemm_blockscale_wp_xdl_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_default_instance.cpp
                device_gemm_blockscale_wp_xdl_f8_f8_bf16/device_gemm_blockscale_wp_xdl_f8_f8_bf16_mk_nk_mn_128_128_128_mem_v1_kpadding_instance.cpp
+
+                device_gemm_blockscale_wp_wmma_f8_f8_bf16/device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_comp_default_instance.cpp
+                device_gemm_blockscale_wp_wmma_f8_f8_bf16/device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_mem_default_instance.cpp
                )
        check_cxx_compiler_flag("-mllvm --misched-bottomup=1" HAS_MISCHED_BOTTOMUP)
        check_cxx_compiler_flag("-mllvm --misched-prera-direction=bottomup" HAS_MISCHED_PRERA_DIRECTION)
--- a/library/src/tensor_operation_instance/gpu/gemm_blockscale_wp/device_gemm_blockscale_wp_wmma_f8_f8_bf16/device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_128_128_128.hpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_blockscale_wp/device_gemm_blockscale_wp_wmma_f8_f8_bf16/device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_128_128_128.hpp
@@ -0,0 +1,77 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "ck/ck.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_gemm_multiple_d_wmma_cshuffle_v3_blockscale_bpreshuffle.hpp"
+
+#include "ck/library/tensor_operation_instance/add_device_operation_instance.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+using F8   = f8_t;
+using BF16 = bhalf_t;
+using F32  = float;
+
+using Row = tensor_layout::gemm::RowMajor;
+using Col = tensor_layout::gemm::ColumnMajor;
+
+template <index_t... Is>
+using S = Sequence<Is...>;
+
+using PassThrough = element_wise::PassThrough;
+
+static constexpr auto GemmDefault    = GemmSpecialization::Default;
+static constexpr auto GemmKPadding   = GemmSpecialization::KPadding;
+static constexpr auto GemmMNPadding  = GemmSpecialization::MNPadding;
+static constexpr auto GemmMNKPadding = GemmSpecialization::MNKPadding;
+
+static constexpr auto Intrawave = BlockGemmPipelineScheduler::Intrawave;
+
+template <GemmSpecialization GemmSpec>
+using device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_comp_instances = std::tuple<
+    // clang-format off
+        //######################################################| ALayout| BLayout| DsLayout| ELayout|   AData|   BData|     DsData| EData| AccData| Cshuffle|           A|           B|              C|          GEMM| Block| Scale| Scale| Scale|  MPer|  NPer|  KPer| AK1| BK1| MPer| NPer| MRepeat| NRepeat|    ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer|  ABlockTransfer| ABlockLds|    BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds|    CShuffle|    CShuffle|     CDEBlockTransferClusterLengths|  CShuffleBlockTransfer|                         Block-wiseGemm|               Block-wiseGemm|
+        //######################################################|        |        |         |        |    Type|    Type|       Type|  Type|    Type|     Type| Elementwise| Elementwise|    Elementwise|Specialization|  Size| Block| Block| Block| Block| Block| Block|    |    | Wmma| Wmma|        |        |     ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|       DstScalar| AddExtraM|     ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN|     MRepeat|     NRepeat| _MBlock_MPerBlock_NBlock_NPerBlock|       ScalarPerVectors|                               Pipeline|                     Pipeline|
+        //######################################################|        |        |         |        |        |        |           |      |        |         |   Operation|   Operation|      Operation|              |      |     M|     N|     K|      |      |      |    |    |     |     |        |        | Lengths_AK0_M_AK1|   ArrangeOrder|               |               |      PerVector|   PerVector_AK1|          | Lengths_BK0_N_BK1|   ArrangeOrder|               |              |      PerVector|  PerVector_BK1|          |  PerShuffle|  PerShuffle|                                   |                       |                              Scheduler|                     Verision|
+        //######################################################|        |        |         |        |        |        |           |      |        |         |            |            |               |              |      |      |      |      |      |      |      |    |    |     |     |        |        |                  |               |               |               |               |                |          |                  |               |               |              |               |               |          |            |            |                                   |                       |                                       |                             |
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,   128,   128,   128,  16,  16,   16,   16,       4,       2,       S<8, 32, 1>,     S<1, 0, 2>,    S<1, 0, 2>,               2,             16,              16,         0,       S<8, 32, 1>,     S<1, 0, 2>,    S <1, 0, 2>,             2,             16,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,   128,   128,  16,  16,   16,   16,       2,       2,       S<8, 32, 1>,     S<1, 0, 2>,    S<1, 0, 2>,               2,             16,              16,         0,       S<8, 32, 1>,     S<1, 0, 2>,    S <1, 0, 2>,             2,             16,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,    64,   128,  16,  16,   16,   16,       2,       1,       S<8, 32, 1>,     S<1, 0, 2>,    S<1, 0, 2>,               2,             16,              16,         0,       S<8, 32, 1>,     S<1, 0, 2>,    S <1, 0, 2>,             2,             16,             16,         0,           1,           1,                     S<1, 32, 1, 8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>
+    // clang-format on
+    >;
+
+template <GemmSpecialization GemmSpec>
+using device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_mem_instances = std::tuple<
+    // clang-format off
+        //######################################################| ALayout| BLayout| DsLayout| ELayout|   AData|   BData|     DsData| EData| AccData| Cshuffle|           A|           B|              C|          GEMM| Block| Scale| Scale| Scale|  MPer|  NPer|  KPer| AK1| BK1| MPer| NPer| MRepeat| NRepeat|    ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer|  ABlockTransfer| ABlockLds|    BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds|    CShuffle|    CShuffle|     CDEBlockTransferClusterLengths|  CShuffleBlockTransfer|                         Block-wiseGemm|               Block-wiseGemm|
+        //######################################################|        |        |         |        |    Type|    Type|       Type|  Type|    Type|     Type| Elementwise| Elementwise|    Elementwise|Specialization|  Size| Block| Block| Block| Block| Block| Block|    |    | Wmma| Wmma|        |        |     ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|       DstScalar| AddExtraM|     ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN|     MRepeat|     NRepeat| _MBlock_MPerBlock_NBlock_NPerBlock|       ScalarPerVectors|                               Pipeline|                     Pipeline|
+        //######################################################|        |        |         |        |        |        |           |      |        |         |   Operation|   Operation|      Operation|              |      |     M|     N|     K|      |      |      |    |    |     |     |        |        | Lengths_AK0_M_AK1|   ArrangeOrder|               |               |      PerVector|   PerVector_AK1|          | Lengths_BK0_N_BK1|   ArrangeOrder|               |              |      PerVector|  PerVector_BK1|          |  PerShuffle|  PerShuffle|                                   |                       |                              Scheduler|                     Verision|
+        //######################################################|        |        |         |        |        |        |           |      |        |         |            |            |               |              |      |      |      |      |      |      |      |    |    |     |     |        |        |                  |               |               |               |               |                |          |                  |               |               |              |               |               |          |            |            |                                   |                       |                                       |                             |
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    16,   256,   128,   8,  16,   16,   16,       1,       2,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,               8,         0,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    16,   128,   128,   8,  16,   16,   16,       1,       1,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,               8,         0,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   128,     1,   128,   128,    16,    64,   128,   8,  16,   16,   16,       1,       1,      S<16,  8, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,               8,         0,      S< 8, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    16,   128,   256,  16,  16,   16,   16,       1,       1,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   128,     1,   128,   128,    16,    64,   256,  16,  16,   16,   16,       1,       1,      S<16,  8, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S<16,  8, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    32,   256,   128,  16,  16,   16,   16,       2,       2,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    32,   128,   128,  16,  16,   16,   16,       2,       1,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    32,    64,   128,  16,  16,   16,   16,       1,       1,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    32,   128,   256,  16,  16,   16,   16,       2,       1,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    32,    64,   256,  16,  16,   16,   16,       1,       1,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,   256,   128,  16,  16,   16,   16,       4,       2,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,   128,   128,  16,  16,   16,   16,       4,       1,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,    64,   128,  16,  16,   16,   16,       2,       1,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S< 8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,   128,   256,  16,  16,   16,   16,       4,       1,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 16, 1, 16>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>,
+        DeviceGemmMultiD_BlockScale_Wmma_CShuffle_V3_BPreshuffle<     Row,     Col,  Tuple<>,     Row, F8, F32, F8, F32,    Tuple<>,  BF16,     F32,      F32, PassThrough, PassThrough,    PassThrough,      GemmSpec,   256,     1,   128,   128,    64,    64,   256,  16,  16,   16,   16,       2,       1,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,             16,              16,         0,      S<16, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,             16,             16,         0,           1,           1,                    S<1, 32, 1,  8>,                   S<8>,  BlockGemmPipelineScheduler::Intrawave, BlockGemmPipelineVersion::v1, F8>
+    // clang-format on
+    >;
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_blockscale_wp/device_gemm_blockscale_wp_wmma_f8_f8_bf16/device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_comp_default_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_blockscale_wp/device_gemm_blockscale_wp_wmma_f8_f8_bf16/device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_comp_default_instance.cpp
@@ -0,0 +1,38 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_comp_default_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_BlockScale_BPreshuffleSplitK<Row,
+                                                                                 Col,
+                                                                                 Tuple<>,
+                                                                                 Row,
+                                                                                 F8,
+                                                                                 F32,
+                                                                                 F8,
+                                                                                 F32,
+                                                                                 Tuple<>,
+                                                                                 BF16,
+                                                                                 1,
+                                                                                 128,
+                                                                                 128,
+                                                                                 PassThrough,
+                                                                                 PassThrough,
+                                                                                 PassThrough>>>&
+        instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_comp_instances<GemmDefault>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/gemm_blockscale_wp/device_gemm_blockscale_wp_wmma_f8_f8_bf16/device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_mem_default_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/gemm_blockscale_wp/device_gemm_blockscale_wp_wmma_f8_f8_bf16/device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_128_128_128_mem_default_instance.cpp
@@ -0,0 +1,38 @@
+// Copyright (c) Advanced Micro Devices, Inc., or its affiliates.
+// SPDX-License-Identifier: MIT
+
+#include "device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_128_128_128.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_mem_default_instances(
+    std::vector<std::unique_ptr<DeviceGemmMultipleD_BlockScale_BPreshuffleSplitK<Row,
+                                                                                 Col,
+                                                                                 Tuple<>,
+                                                                                 Row,
+                                                                                 F8,
+                                                                                 F32,
+                                                                                 F8,
+                                                                                 F32,
+                                                                                 Tuple<>,
+                                                                                 BF16,
+                                                                                 1,
+                                                                                 128,
+                                                                                 128,
+                                                                                 PassThrough,
+                                                                                 PassThrough,
+                                                                                 PassThrough>>>&
+        instances)
+{
+    add_device_operation_instances(
+        instances,
+        device_gemm_blockscale_wp_wmma_f8_f8_bf16_mk_nk_mn_1_128_128_mem_instances<GemmDefault>{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck