prune debug message

2026-04-19 22:39:03 +00:00 · 2025-07-30 06:20:30 +00:00
parent 2e5d4c74cd
commit 3f43b841d4
2 changed files with 32 additions and 32 deletions
--- a/example/ck_tile/18_flatmm/run_flatmm_example.inc
+++ b/example/ck_tile/18_flatmm/run_flatmm_example.inc
@@ -114,6 +114,35 @@ int run_flatmm_example_with_layouts(int argc,
    auto per_channel_scale_dev_ptr = ck_tile::FlatmmScalePointer<ScaleGranularityN>{
        static_cast<float*>(per_channel_scale_dev_buf.GetDeviceBuffer())};

+    invoke_flatmm<FlatmmConfig,
+                  ADataType,
+                  BDataType,
+                  ck_tile::tuple<>,
+                  AccDataType,
+                  CDataType,
+                  ALayout,
+                  BLayout,
+                  ck_tile::tuple<>,
+                  CLayout,
+                  decltype(per_token_scale_dev_ptr),
+                  decltype(per_channel_scale_dev_ptr),
+                  UsePersistentKernel>(a_dev_buf,
+                                       b_shuffle_dev_buf,
+                                       c_dev_buf,
+                                       M,
+                                       N,
+                                       K,
+                                       stride_A,
+                                       stride_B,
+                                       stride_C,
+                                       kbatch,
+                                       per_token_scale_dev_ptr,
+                                       per_channel_scale_dev_ptr,
+                                       n_warmup,
+                                       n_repeat);
+
+    c_dev_buf.FromDevice(c_rslt_host.data());
+
    bool pass = true;

    if(arg_parser.get_int("v") == 1)
@@ -212,35 +241,6 @@ int run_flatmm_example_with_layouts(int argc,
        ck_tile::hip_check_error(hipFree(d_B));
        ck_tile::hip_check_error(hipFree(d_C));

-        invoke_flatmm<FlatmmConfig,
-                      ADataType,
-                      BDataType,
-                      ck_tile::tuple<>,
-                      AccDataType,
-                      CDataType,
-                      ALayout,
-                      BLayout,
-                      ck_tile::tuple<>,
-                      CLayout,
-                      decltype(per_token_scale_dev_ptr),
-                      decltype(per_channel_scale_dev_ptr),
-                      UsePersistentKernel>(a_dev_buf,
-                                           b_shuffle_dev_buf,
-                                           c_dev_buf,
-                                           M,
-                                           N,
-                                           K,
-                                           stride_A,
-                                           stride_B,
-                                           stride_C,
-                                           kbatch,
-                                           per_token_scale_dev_ptr,
-                                           per_channel_scale_dev_ptr,
-                                           n_warmup,
-                                           n_repeat);
-
-        c_dev_buf.FromDevice(c_rslt_host.data());
-
        c_gpu_ref_dev_buf.FromDevice(c_gpu_ref_host.data());
        const float max_accumulated_value =
            *std::max_element(c_gpu_ref_host.mData.begin(), c_gpu_ref_host.mData.end());
--- a/include/ck_tile/ops/flatmm/kernel/flatmm_kernel.hpp
+++ b/include/ck_tile/ops/flatmm/kernel/flatmm_kernel.hpp
@@ -287,9 +287,9 @@ struct FlatmmKernel
            const int persistent_block_size = prop.multiProcessorCount * maxActiveBlocksPerCU;
            const int total_work_tile_cnt   = TilePartitioner::GridSize(kargs.M, kargs.N);

-            std::cout << "maxActiveBlocksPerCU: " << maxActiveBlocksPerCU
-                      << ", persistent_block_size: " << persistent_block_size
-                      << ", total_work_tile_cnt: " << total_work_tile_cnt << std::endl;
+            // std::cout << "maxActiveBlocksPerCU: " << maxActiveBlocksPerCU
+            //           << ", persistent_block_size: " << persistent_block_size
+            //           << ", total_work_tile_cnt: " << total_work_tile_cnt << std::endl;

            assert(kargs.k_batch == 1);
            return dim3(min(persistent_block_size, total_work_tile_cnt), 1, kargs.k_batch);