CK: Remove 41 commented-out dead code blocks (~200 lines) (#6302)

Depends on #6300 ## Summary Remove 41 commented-out code blocks across 33 files in Composable Kernel, totaling ~200 lines. Identified using an automated dead code scanning skill (`ck-dead-code`) with a calibrated two-stage pipeline: 1. **Pre-filter**: Keyword-based scan found 1,338 `//`-commented blocks. Calibrated heuristics (trained on 50-sample expert classification) reduced to 89 high-confidence candidates — 93% noise reduction. 2. **Expert triage**: LLM expert classified each block in context as CODE_REMOVE, CODE_KEEP, or NOT_CODE. | Classification | Count | |---------------|-------| | Removed (this PR) | 41 | | Kept (debug helpers, alt configs, reference impls) | 32 | | Not code (false positives) | 16 | Removed blocks include: superseded implementations, old test data, abandoned stubs, unreachable code, and buggy dead code.
2026-05-20 12:59:49 +00:00 · 2026-04-10 11:17:11 -04:00
parent 6cdc5bc3e2
commit 2ff7ac5abc
82 changed files with 22 additions and 2883 deletions
--- a/include/ck/tensor_operation/gpu/device/impl/device_batched_contraction_multiple_d_wmma_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_batched_contraction_multiple_d_wmma_cshuffle.hpp
@@ -737,11 +737,6 @@ struct DeviceBatchedContractionMultipleD_Wmma_CShuffle

        // Batch Offset
        ComputePtrOffsetOfStridedBatch compute_ptr_offset_of_batch_;
-
-        // for checking vector load/store
-        // index_t MRaw_;
-        // index_t NRaw_;
-        // index_t KRaw_;
    };

    // Invoker
--- a/include/ck/tensor_operation/gpu/device/impl/device_batched_gemm_softmax_gemm_permute_wmma_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_batched_gemm_softmax_gemm_permute_wmma_cshuffle.hpp
@@ -1433,147 +1433,6 @@ struct DeviceBatchedGemmSoftmaxGemmPermute_Wmma_CShuffle
        // TODO: properly implement this check
        return true;
    }
-#if 0
-    static bool IsSupportedArgument(const Argument& arg)
-    {
-        if(ck::is_gfx11_supported())
-        {
-            if constexpr(!(is_same_v<Acc0DataType, float> || is_same_v<Acc0DataType, int32_t>))
-            {
-                printf("DeviceOp: Acc0 Type err");
-                return false;
-            }
-
-            if constexpr(!(is_same_v<Acc1DataType, float> || is_same_v<Acc1DataType, int32_t>))
-            {
-                printf("DeviceOp: Acc1 Type err");
-                return false;
-            }
-        }
-        else
-        {
-            printf("DeviceOp: Arch err");
-            return false;
-        }
-
-        if(!GridwiseOp::CheckValidity(arg.a_grid_desc,
-                                      arg.b0_grid_desc,
-                                      arg.b1_grid_desc,
-                                      arg.c_grid_desc_m_n_,
-                                      arg.block_2_ctile_map_))
-        {
-            return false;
-        }
-
-        // Check if C permute dimension matches GEMM + GEMM shape
-        const index_t c_g = arg.c_grid_desc_g_m_n_.GetLength(I0); // unpadded
-
-        if(!(c_g == arg.batch_count_))
-        {
-            printf("DeviceOp: BatchCount err");
-            return false;
-        }
-
-        // Note: we need raw lengths since threadwise copy can not handle vector load when part of
-        // vector is out of bounds
-        // Note: need lowest dim in Ms/Ns/Ks/Os, not merged M/N/K/O
-        const auto MzRaw = arg.raw_lengths_mz_lz_kz_nz_[0];
-        const auto LzRaw = arg.raw_lengths_mz_lz_kz_nz_[1];
-        const auto KzRaw = arg.raw_lengths_mz_lz_kz_nz_[2];
-        const auto NzRaw = arg.raw_lengths_mz_lz_kz_nz_[3];
-
-        // Check scalar per vector requirement
-        const auto a_extent_lowest  = ABlockTransferSrcVectorDim == 2 ? KzRaw : MzRaw;
-        const auto b0_extent_lowest = B0BlockTransferSrcVectorDim == 2 ? KzRaw : LzRaw;
-        const auto b1_extent_lowest = B1BlockTransferSrcVectorDim == 2 ? LzRaw : NzRaw;
-        const auto c_extent_lowest  = NzRaw;
-
-        if(!(a_extent_lowest % ABlockTransferSrcScalarPerVector == 0 &&
-             b0_extent_lowest % B0BlockTransferSrcScalarPerVector == 0 &&
-             b1_extent_lowest % B1BlockTransferSrcScalarPerVector == 0 &&
-             c_extent_lowest % CShuffleBlockTransferScalarPerVector_NPerBlock == 0))
-        {
-            printf("DeviceOp: Data Transfer Vector scalar err");
-            return false;
-        }
-
-        // Check vector load/store requirement
-        const auto a_stride_lowest =
-            ABlockTransferSrcVectorDim == 2 ? arg.a_mz_kz_strides_[1] : arg.a_mz_kz_strides_[0];
-        const auto b0_stride_lowest =
-            B0BlockTransferSrcVectorDim == 2 ? arg.b0_lz_kz_strides_[1] : arg.b0_lz_kz_strides_[0];
-        const auto b1_stride_lowest =
-            B1BlockTransferSrcVectorDim == 2 ? arg.b1_nz_lz_strides_[1] : arg.b1_nz_lz_strides_[0];
-        const auto c_stride_lowest = arg.c_mz_nz_strides_[1];
-
-        if(!(a_stride_lowest == 1 || b0_stride_lowest == 1 || b1_stride_lowest == 1 ||
-             c_stride_lowest == 1))
-        {
-            printf("DeviceOp: Data Vectorize transfer err");
-            return false;
-        }
-
-        return true;
-    }
-
-    // polymorphic
-    bool IsSupportedArgument(const BaseArgument* p_arg) override
-    {
-        return IsSupportedArgument(*dynamic_cast<const Argument*>(p_arg));
-    }
-
-    static auto MakeArgument(
-        const ADataType* p_a,
-        const B0DataType* p_b0,
-        const B1DataType* p_b1,
-        CDataType* p_c,
-        const std::array<void*, NumAcc0Bias> p_acc0_biases,
-        const std::array<void*, NumAcc1Bias> p_acc1_biases,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& a_gs_ms_ks_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& a_gs_ms_ks_strides,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b0_gs_ls_ks_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b0_gs_ls_ks_strides,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b1_gs_ns_ls_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b1_gs_ns_ls_strides,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& c_gs_ms_ns_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& c_gs_ms_ns_strides,
-        const std::array<std::vector<ck::index_t>, NumAcc0Bias> acc0_biases_gs_ms_ls_lengths,
-        const std::array<std::vector<ck::index_t>, NumAcc0Bias> acc0_biases_gs_ms_ls_strides,
-        const std::array<std::vector<ck::index_t>, NumAcc1Bias> acc1_biases_gs_ms_ns_lengths,
-        const std::array<std::vector<ck::index_t>, NumAcc1Bias> acc1_biases_gs_ms_ns_strides,
-        AElementwiseOperation a_element_op,
-        B0ElementwiseOperation b0_element_op,
-        AccElementwiseOperation acc_element_op,
-        B1ElementwiseOperation b1_element_op,
-        CElementwiseOperation c_element_op)
-    {
-        return Argument{p_a,
-                        p_b0,
-                        p_b1,
-                        p_c,
-                        p_acc0_biases,
-                        p_acc1_biases,
-                        a_gs_ms_ks_lengths,
-                        a_gs_ms_ks_strides,
-                        b0_gs_ls_ks_lengths,
-                        b0_gs_ls_ks_strides,
-                        b1_gs_ns_ls_lengths,
-                        b1_gs_ns_ls_strides,
-                        c_gs_ms_ns_lengths,
-                        c_gs_ms_ns_strides,
-                        acc0_biases_gs_ms_ls_lengths,
-                        acc0_biases_gs_ms_ls_strides,
-                        acc1_biases_gs_ms_ns_lengths,
-                        acc1_biases_gs_ms_ns_strides,
-                        1,
-                        1,
-                        a_element_op,
-                        b0_element_op,
-                        acc_element_op,
-                        b1_element_op,
-                        c_element_op};
-    }
-#endif

    // polymorphic
    std::unique_ptr<BaseArgument> MakeArgumentPointer(
--- a/include/ck/tensor_operation/gpu/device/impl/device_grouped_query_attention_forward_wmma.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_grouped_query_attention_forward_wmma.hpp
@@ -956,147 +956,6 @@ struct DeviceGroupedQueryAttentionForward_Wmma
        // TODO: properly implement this check
        return true;
    }
-#if 0
-    static bool IsSupportedArgument(const Argument& arg)
-    {
-        if(ck::is_gfx11_supported())
-        {
-            if constexpr(!(is_same_v<Acc0DataType, float> || is_same_v<Acc0DataType, int32_t>))
-            {
-                printf("DeviceOp: Acc0 Type err");
-                return false;
-            }
-
-            if constexpr(!(is_same_v<Acc1DataType, float> || is_same_v<Acc1DataType, int32_t>))
-            {
-                printf("DeviceOp: Acc1 Type err");
-                return false;
-            }
-        }
-        else
-        {
-            printf("DeviceOp: Arch err");
-            return false;
-        }
-
-        if(!GridwiseOp::CheckValidity(arg.a_grid_desc,
-                                      arg.b0_grid_desc,
-                                      arg.b1_grid_desc,
-                                      arg.c_grid_desc_m_n_,
-                                      arg.block_2_ctile_map_))
-        {
-            return false;
-        }
-
-        // Check if C permute dimension matches GEMM + GEMM shape
-        const index_t c_g = arg.c_grid_desc_g_m_n_.GetLength(I0); // unpadded
-
-        if(!(c_g == arg.batch_count_))
-        {
-            printf("DeviceOp: BatchCount err");
-            return false;
-        }
-
-        // Note: we need raw lengths since threadwise copy can not handle vector load when part of
-        // vector is out of bounds
-        // Note: need lowest dim in Ms/Ns/Ks/Os, not merged M/N/K/O
-        const auto MzRaw = arg.raw_lengths_mz_lz_kz_nz_[0];
-        const auto LzRaw = arg.raw_lengths_mz_lz_kz_nz_[1];
-        const auto KzRaw = arg.raw_lengths_mz_lz_kz_nz_[2];
-        const auto NzRaw = arg.raw_lengths_mz_lz_kz_nz_[3];
-
-        // Check scalar per vector requirement
-        const auto a_extent_lowest  = ABlockTransferSrcVectorDim == 2 ? KzRaw : MzRaw;
-        const auto b0_extent_lowest = B0BlockTransferSrcVectorDim == 2 ? KzRaw : LzRaw;
-        const auto b1_extent_lowest = B1BlockTransferSrcVectorDim == 2 ? LzRaw : NzRaw;
-        const auto c_extent_lowest  = NzRaw;
-
-        if(!(a_extent_lowest % ABlockTransferSrcScalarPerVector == 0 &&
-             b0_extent_lowest % B0BlockTransferSrcScalarPerVector == 0 &&
-             b1_extent_lowest % B1BlockTransferSrcScalarPerVector == 0 &&
-             c_extent_lowest % CShuffleBlockTransferScalarPerVector_NPerBlock == 0))
-        {
-            printf("DeviceOp: Data Transfer Vector scalar err");
-            return false;
-        }
-
-        // Check vector load/store requirement
-        const auto a_stride_lowest =
-            ABlockTransferSrcVectorDim == 2 ? arg.a_mz_kz_strides_[1] : arg.a_mz_kz_strides_[0];
-        const auto b0_stride_lowest =
-            B0BlockTransferSrcVectorDim == 2 ? arg.b0_lz_kz_strides_[1] : arg.b0_lz_kz_strides_[0];
-        const auto b1_stride_lowest =
-            B1BlockTransferSrcVectorDim == 2 ? arg.b1_nz_lz_strides_[1] : arg.b1_nz_lz_strides_[0];
-        const auto c_stride_lowest = arg.c_mz_nz_strides_[1];
-
-        if(!(a_stride_lowest == 1 || b0_stride_lowest == 1 || b1_stride_lowest == 1 ||
-             c_stride_lowest == 1))
-        {
-            printf("DeviceOp: Data Vectorize transfer err");
-            return false;
-        }
-
-        return true;
-    }
-
-    // polymorphic
-    bool IsSupportedArgument(const BaseArgument* p_arg) override
-    {
-        return IsSupportedArgument(*dynamic_cast<const Argument*>(p_arg));
-    }
-
-    static auto MakeArgument(
-        const ADataType* p_a,
-        const B0DataType* p_b0,
-        const B1DataType* p_b1,
-        CDataType* p_c,
-        const std::array<void*, NumAcc0Bias> p_acc0_biases,
-        const std::array<void*, NumAcc1Bias> p_acc1_biases,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& a_gs_ms_ks_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& a_gs_ms_ks_strides,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b0_gs_ls_ks_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b0_gs_ls_ks_strides,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b1_gs_ns_ls_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b1_gs_ns_ls_strides,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& c_gs_ms_ns_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& c_gs_ms_ns_strides,
-        const std::array<std::vector<ck::index_t>, NumAcc0Bias> acc0_biases_gs_ms_ls_lengths,
-        const std::array<std::vector<ck::index_t>, NumAcc0Bias> acc0_biases_gs_ms_ls_strides,
-        const std::array<std::vector<ck::index_t>, NumAcc1Bias> acc1_biases_gs_ms_ns_lengths,
-        const std::array<std::vector<ck::index_t>, NumAcc1Bias> acc1_biases_gs_ms_ns_strides,
-        AElementwiseOperation a_element_op,
-        B0ElementwiseOperation b0_element_op,
-        AccElementwiseOperation acc_element_op,
-        B1ElementwiseOperation b1_element_op,
-        CElementwiseOperation c_element_op)
-    {
-        return Argument{p_a,
-                        p_b0,
-                        p_b1,
-                        p_c,
-                        p_acc0_biases,
-                        p_acc1_biases,
-                        a_gs_ms_ks_lengths,
-                        a_gs_ms_ks_strides,
-                        b0_gs_ls_ks_lengths,
-                        b0_gs_ls_ks_strides,
-                        b1_gs_ns_ls_lengths,
-                        b1_gs_ns_ls_strides,
-                        c_gs_ms_ns_lengths,
-                        c_gs_ms_ns_strides,
-                        acc0_biases_gs_ms_ls_lengths,
-                        acc0_biases_gs_ms_ls_strides,
-                        acc1_biases_gs_ms_ns_lengths,
-                        acc1_biases_gs_ms_ns_strides,
-                        1,
-                        1,
-                        a_element_op,
-                        b0_element_op,
-                        acc_element_op,
-                        b1_element_op,
-                        c_element_op};
-    }
-#endif

    // polymorphic
    std::unique_ptr<BaseArgument> MakeArgumentPointer(
--- a/include/ck/tensor_operation/gpu/device/impl/device_multi_query_attention_forward_wmma.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_multi_query_attention_forward_wmma.hpp
@@ -948,147 +948,6 @@ struct DeviceMultiQueryAttentionForward_Wmma
        // TODO: properly implement this check
        return true;
    }
-#if 0
-    static bool IsSupportedArgument(const Argument& arg)
-    {
-        if(ck::is_gfx11_supported())
-        {
-            if constexpr(!(is_same_v<Acc0DataType, float> || is_same_v<Acc0DataType, int32_t>))
-            {
-                printf("DeviceOp: Acc0 Type err");
-                return false;
-            }
-
-            if constexpr(!(is_same_v<Acc1DataType, float> || is_same_v<Acc1DataType, int32_t>))
-            {
-                printf("DeviceOp: Acc1 Type err");
-                return false;
-            }
-        }
-        else
-        {
-            printf("DeviceOp: Arch err");
-            return false;
-        }
-
-        if(!GridwiseOp::CheckValidity(arg.a_grid_desc,
-                                      arg.b0_grid_desc,
-                                      arg.b1_grid_desc,
-                                      arg.c_grid_desc_m_n_,
-                                      arg.block_2_ctile_map_))
-        {
-            return false;
-        }
-
-        // Check if C permute dimension matches GEMM + GEMM shape
-        const index_t c_g = arg.c_grid_desc_g_m_n_.GetLength(I0); // unpadded
-
-        if(!(c_g == arg.batch_count_))
-        {
-            printf("DeviceOp: BatchCount err");
-            return false;
-        }
-
-        // Note: we need raw lengths since threadwise copy can not handle vector load when part of
-        // vector is out of bounds
-        // Note: need lowest dim in Ms/Ns/Ks/Os, not merged M/N/K/O
-        const auto MzRaw = arg.raw_lengths_mz_lz_kz_nz_[0];
-        const auto LzRaw = arg.raw_lengths_mz_lz_kz_nz_[1];
-        const auto KzRaw = arg.raw_lengths_mz_lz_kz_nz_[2];
-        const auto NzRaw = arg.raw_lengths_mz_lz_kz_nz_[3];
-
-        // Check scalar per vector requirement
-        const auto a_extent_lowest  = ABlockTransferSrcVectorDim == 2 ? KzRaw : MzRaw;
-        const auto b0_extent_lowest = B0BlockTransferSrcVectorDim == 2 ? KzRaw : LzRaw;
-        const auto b1_extent_lowest = B1BlockTransferSrcVectorDim == 2 ? LzRaw : NzRaw;
-        const auto c_extent_lowest  = NzRaw;
-
-        if(!(a_extent_lowest % ABlockTransferSrcScalarPerVector == 0 &&
-             b0_extent_lowest % B0BlockTransferSrcScalarPerVector == 0 &&
-             b1_extent_lowest % B1BlockTransferSrcScalarPerVector == 0 &&
-             c_extent_lowest % CShuffleBlockTransferScalarPerVector_NPerBlock == 0))
-        {
-            printf("DeviceOp: Data Transfer Vector scalar err");
-            return false;
-        }
-
-        // Check vector load/store requirement
-        const auto a_stride_lowest =
-            ABlockTransferSrcVectorDim == 2 ? arg.a_mz_kz_strides_[1] : arg.a_mz_kz_strides_[0];
-        const auto b0_stride_lowest =
-            B0BlockTransferSrcVectorDim == 2 ? arg.b0_lz_kz_strides_[1] : arg.b0_lz_kz_strides_[0];
-        const auto b1_stride_lowest =
-            B1BlockTransferSrcVectorDim == 2 ? arg.b1_nz_lz_strides_[1] : arg.b1_nz_lz_strides_[0];
-        const auto c_stride_lowest = arg.c_mz_nz_strides_[1];
-
-        if(!(a_stride_lowest == 1 || b0_stride_lowest == 1 || b1_stride_lowest == 1 ||
-             c_stride_lowest == 1))
-        {
-            printf("DeviceOp: Data Vectorize transfer err");
-            return false;
-        }
-
-        return true;
-    }
-
-    // polymorphic
-    bool IsSupportedArgument(const BaseArgument* p_arg) override
-    {
-        return IsSupportedArgument(*dynamic_cast<const Argument*>(p_arg));
-    }
-
-    static auto MakeArgument(
-        const ADataType* p_a,
-        const B0DataType* p_b0,
-        const B1DataType* p_b1,
-        CDataType* p_c,
-        const std::array<void*, NumAcc0Bias> p_acc0_biases,
-        const std::array<void*, NumAcc1Bias> p_acc1_biases,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& a_gs_ms_ks_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& a_gs_ms_ks_strides,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b0_gs_ls_ks_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b0_gs_ls_ks_strides,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b1_gs_ns_ls_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& b1_gs_ns_ls_strides,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& c_gs_ms_ns_lengths,
-        const std::array<index_t, NumDimG + NumDimM + NumDimN>& c_gs_ms_ns_strides,
-        const std::array<std::vector<ck::index_t>, NumAcc0Bias> acc0_biases_gs_ms_ls_lengths,
-        const std::array<std::vector<ck::index_t>, NumAcc0Bias> acc0_biases_gs_ms_ls_strides,
-        const std::array<std::vector<ck::index_t>, NumAcc1Bias> acc1_biases_gs_ms_ns_lengths,
-        const std::array<std::vector<ck::index_t>, NumAcc1Bias> acc1_biases_gs_ms_ns_strides,
-        AElementwiseOperation a_element_op,
-        B0ElementwiseOperation b0_element_op,
-        AccElementwiseOperation acc_element_op,
-        B1ElementwiseOperation b1_element_op,
-        CElementwiseOperation c_element_op)
-    {
-        return Argument{p_a,
-                        p_b0,
-                        p_b1,
-                        p_c,
-                        p_acc0_biases,
-                        p_acc1_biases,
-                        a_gs_ms_ks_lengths,
-                        a_gs_ms_ks_strides,
-                        b0_gs_ls_ks_lengths,
-                        b0_gs_ls_ks_strides,
-                        b1_gs_ns_ls_lengths,
-                        b1_gs_ns_ls_strides,
-                        c_gs_ms_ns_lengths,
-                        c_gs_ms_ns_strides,
-                        acc0_biases_gs_ms_ls_lengths,
-                        acc0_biases_gs_ms_ls_strides,
-                        acc1_biases_gs_ms_ns_lengths,
-                        acc1_biases_gs_ms_ns_strides,
-                        1,
-                        1,
-                        a_element_op,
-                        b0_element_op,
-                        acc_element_op,
-                        b1_element_op,
-                        c_element_op};
-    }
-#endif

    // polymorphic
    std::unique_ptr<BaseArgument> MakeArgumentPointer(