remove some unnecessary hacky; enable 256x256x256 tilesize

2026-06-30 03:37:38 +00:00 · 2025-05-09 07:54:28 +00:00
parent b2efb06315
commit bb043a3202
2 changed files with 42 additions and 40 deletions
--- a/example/67_gemm_microscaling/gemm_mx_fp4.cpp
+++ b/example/67_gemm_microscaling/gemm_mx_fp4.cpp
@@ -23,12 +23,15 @@ using BElementOp = PassThrough; // elementwise transformation for B matrix
 using CElementOp = PassThrough; // elementwise transformation for C matrix

 constexpr ck::index_t ScaleBlockSize = 32; // scaling block size
-constexpr ck::index_t KPerBlock      = 128;
+constexpr ck::index_t KPerBlock      = 256;

 constexpr auto GemmSpec      = ck::tensor_operation::device::GemmSpecialization::Default;
 constexpr auto BlkGemmPSched = ck::BlockGemmPipelineScheduler::Intrawave;
 constexpr auto BlkGemmPVer   = ck::BlockGemmPipelineVersion::v1;

+
+// AB DataType: f4x2_pk_t
+// Mathmatically, all numbers are represented as f4.
 using DeviceOpInstance = ck::tensor_operation::device::DeviceGemmMX_Xdl_CShuffleV3<
    ALayout,          // ALayout
    BLayout,          // BLayout
@@ -45,29 +48,29 @@ using DeviceOpInstance = ck::tensor_operation::device::DeviceGemmMX_Xdl_CShuffle
    CElementOp,       // CElementwiseOperation
    GemmSpec,         // GemmSpec
    ScaleBlockSize,   // ScaleBlockSize: Scaling block size
-    256,               // BlockSize: Thread block size
-    128,               // MPerBlock
-    128,               // NPerBlock
+    256,              // BlockSize: Thread block size
+    256,              // MPerBlock
+    256,              // NPerBlock
    KPerBlock,        // KPerBlock
-    16,               // AK1
-    16,               // BK1
+    32,               // AK1
+    32,               // BK1
    16,               // MPerXDL
    16,               // NPerXDL
-    4,                // MXdlPerWave
-    4,                // NXdlPerWave
-    S<4, 64, 1>,      // ABlockTransferThreadClusterLengths_AK0_M_AK1
+    8,                // MXdlPerWave
+    8,                // NXdlPerWave
+    S<8, 32, 1>,      // ABlockTransferThreadClusterLengths_AK0_M_AK1
    S<1, 0, 2>,       // ABlockTransferThreadClusterArrangeOrder
    S<1, 0, 2>,       // ABlockTransferSrcAccessOrder
    2,                // ABlockTransferSrcVectorDim
-    16,               // ABlockTransferSrcScalarPerVector
-    16,               // ABlockTransferDstScalarPerVector_AK1
+    32,               // ABlockTransferSrcScalarPerVector
+    32,               // ABlockTransferDstScalarPerVector_AK1
    false,            // ABlockLdsExtraM
-    S<4, 64, 1>,      // BBlockTransferThreadClusterLengths_BK0_N_BK1
+    S<8, 32, 1>,      // BBlockTransferThreadClusterLengths_BK0_N_BK1
    S<1, 0, 2>,       // BBlockTransferThreadClusterArrangeOrder
    S<1, 0, 2>,       // BBlockTransferSrcAccessOrder
    2,                // BBlockTransferSrcVectorDim
-    16,               // BBlockTransferSrcScalarPerVector
-    16,               // BBlockTransferDstScalarPerVector_BK1
+    32,               // BBlockTransferSrcScalarPerVector
+    32,               // BBlockTransferDstScalarPerVector_BK1
    false,            // BBlockLdsExtraN
    1,                // CShuffleMXdlPerWavePerShuffle
    2,                // CShuffleNXdlPerWavePerShuffle