remove unnecessary files; rename some files

2026-05-11 00:40:09 +00:00 · 2025-08-08 06:19:31 +00:00
parent b4640a9de6
commit 1ecee378d5
12 changed files with 14 additions and 2717 deletions
--- a/include/ck_tile/ops/fmha/kernel/fmha_fwd_decode_kernel.hpp
+++ b/include/ck_tile/ops/fmha/kernel/fmha_fwd_decode_kernel.hpp
--- a/include/ck_tile/ops/fmha/pipeline/block_fmha_pipeline_enum.hpp
+++ b/include/ck_tile/ops/fmha/pipeline/block_fmha_pipeline_enum.hpp
@@ -11,7 +11,7 @@ enum class BlockFmhaPipelineEnum
    QRKSVS = 0,
    QRKSVS_ASYNC,
    QSKSVS,
-    DECODE_QRKSVS,
+    QRKSVS_ASYNC_TRLOAD,
 };

 template <BlockFmhaPipelineEnum>
@@ -34,9 +34,9 @@ struct BlockFmhaPipelineEnumToStr<BlockFmhaPipelineEnum::QSKSVS>
 };

 template <>
-struct BlockFmhaPipelineEnumToStr<BlockFmhaPipelineEnum::DECODE_QRKSVS>
+struct BlockFmhaPipelineEnumToStr<BlockFmhaPipelineEnum::QRKSVS_ASYNC_TRLOAD>
 {
-    static constexpr const char* name = "decode_qr";
+    static constexpr const char* name = "qr_async_trload";
 };

 } // namespace ck_tile
--- a/include/ck_tile/ops/fmha/pipeline/block_fmha_pipeline_problem.hpp
+++ b/include/ck_tile/ops/fmha/pipeline/block_fmha_pipeline_problem.hpp
@@ -222,113 +222,6 @@ struct BlockFmhaSplitKVCombinePipelineProblem
                  (kM0 * kMaxSplits) % get_warp_size() == 0);
 };

-template <typename QDataType_,
-          typename KDataType_,
-          typename VDataType_,
-          typename SaccDataType_,
-          typename SMPLComputeDataType_,
-          typename BiasDataType_,
-          typename LSEDataType_,
-          typename PDataType_,
-          typename OaccDataType_,
-          typename ODataType_,
-          typename BlockFmhaShape_,
-          bool kIsGroupMode_,
-          typename AttentionVariant_,
-          typename FmhaMask_,
-          typename Traits_>
-struct BlockFmhaFwdDecodePipelineProblem
-{
-    using QDataType           = remove_cvref_t<QDataType_>;
-    using KDataType           = remove_cvref_t<KDataType_>;
-    using VDataType           = remove_cvref_t<VDataType_>;
-    using SaccDataType        = remove_cvref_t<SaccDataType_>;
-    using SMPLComputeDataType = remove_cvref_t<SMPLComputeDataType_>;
-    using BiasDataType        = remove_cvref_t<BiasDataType_>;
-    using LSEDataType         = remove_cvref_t<LSEDataType_>;
-    using PDataType           = remove_cvref_t<PDataType_>;
-    using OaccDataType        = remove_cvref_t<OaccDataType_>;
-    using ODataType           = remove_cvref_t<ODataType_>;
-    using BlockFmhaShape      = remove_cvref_t<BlockFmhaShape_>;
-    using AttentionVariant    = remove_cvref_t<AttentionVariant_>;
-    using FmhaMask            = remove_cvref_t<FmhaMask_>;
-    using Traits              = remove_cvref_t<Traits_>;
-
-    static constexpr index_t kNumGemm0Warps = BlockFmhaShape::NumGemm0Warps;
-    static constexpr index_t kNumGemm1Warps = BlockFmhaShape::NumGemm1Warps;
-    static constexpr index_t kBlockSize     = BlockFmhaShape::NumWarps * get_warp_size();
-
-    static constexpr bool kIsGroupMode = kIsGroupMode_;
-
-    // attributes from traits
-    static constexpr bool kPadSeqLenQ                = Traits::kPadSeqLenQ;
-    static constexpr bool kPadSeqLenK                = Traits::kPadSeqLenK;
-    static constexpr bool kPadHeadDimQ               = Traits::kPadHeadDimQ;
-    static constexpr bool kPadHeadDimV               = Traits::kPadHeadDimV;
-    static constexpr bool kHasLogitsSoftCap          = Traits::kHasLogitsSoftCap;
-    static constexpr auto BiasEnum                   = Traits::BiasEnum;
-    static constexpr bool kStoreLSE                  = Traits::kStoreLSE;
-    static constexpr bool kDoFp8StaticQuant          = Traits::kDoFp8StaticQuant;
-    static constexpr bool kIsPagedKV                 = Traits::kIsPagedKV;
-    static constexpr bool kHasUnevenSplits           = kIsGroupMode || Traits::kHasUnevenSplits;
-    static constexpr bool kMergeNumHeadGroupsSeqLenQ = Traits::kMergeNumHeadGroupsSeqLenQ;
-    static constexpr index_t kBlockPerCu             = Traits::kBlockPerCu;
-};
-
-// extract tile size attributes to remove dependency on traits
-template <typename OaccDataType_, ck_tile::index_t kN1_>
-struct BlockFmhaDecodeCombinePipelineTileSizes
-{
-    static constexpr index_t MaxVectorSize = 16 / sizeof(OaccDataType_);
-
-    static constexpr index_t kN1      = kN1_;
-    static constexpr index_t NThreads = kN1 / MaxVectorSize;
-    static constexpr index_t kM0      = get_warp_size() / NThreads; // MThreadPerWarp
-};
-
-template <typename LSEDataType_,
-          typename OaccDataType_,
-          typename ODataType_,
-          index_t HeadDimV_,
-          bool kIsGroupMode_,
-          ck_tile::index_t kN1_,
-          typename Traits_>
-struct BlockFmhaDecodeCombinePipelineProblem
-    : BlockFmhaDecodeCombinePipelineTileSizes<OaccDataType_, kN1_>
-{
-    using BaseType = BlockFmhaDecodeCombinePipelineTileSizes<OaccDataType_, kN1_>;
-
-    using LSEDataType  = remove_cvref_t<LSEDataType_>;
-    using OaccDataType = remove_cvref_t<OaccDataType_>;
-    using ODataType    = remove_cvref_t<ODataType_>;
-    using Traits       = remove_cvref_t<Traits_>;
-
-    static_assert(std::is_same_v<LSEDataType, OaccDataType>);
-
-    static constexpr index_t kHeadDimV = HeadDimV_;
-    static constexpr bool kIsGroupMode = kIsGroupMode_;
-
-    using BaseType::kM0;
-    using BaseType::kN1;
-
-    static_assert(kN1 <= kHeadDimV && kHeadDimV % kN1 == 0);
-
-    // attributes from traits
-    static constexpr bool kPadSeqLenQ       = Traits::kPadSeqLenQ;
-    static constexpr bool kPadHeadDimV      = Traits::kPadHeadDimV;
-    static constexpr bool kStoreLSE         = Traits::kStoreLSE;
-    static constexpr bool kDoFp8StaticQuant = Traits::kDoFp8StaticQuant;
-    static constexpr index_t kBlockPerCu    = Traits::kBlockPerCu;
-    static constexpr index_t kMaxSplits     = Traits::kMaxSplits;
-    static_assert(8 <= kMaxSplits);
-
-    static constexpr index_t kNumWarps  = 4; // always use 4 warps for each workgroup
-    static constexpr index_t kBlockSize = kNumWarps * get_warp_size();
-
-    static_assert(get_warp_size() <= (kM0 * kMaxSplits) &&
-                  (kM0 * kMaxSplits) % get_warp_size() == 0);
-};
-
 template <typename QDataType_,
          typename KDataType_,
          typename VDataType_,
--- a/include/ck_tile/ops/fmha/pipeline/block_fmha_pipeline_qr_ks_vs_async_trload.hpp
+++ b/include/ck_tile/ops/fmha/pipeline/block_fmha_pipeline_qr_ks_vs_async_trload.hpp
@@ -5,14 +5,14 @@

 #include "ck_tile/core.hpp"
 #include "ck_tile/ops/fmha/block/block_attention_bias_enum.hpp"
-#include "ck_tile/ops/fmha/pipeline/block_fmha_fwd_decode_pipeline_qr_ks_vs_policy.hpp"
+#include "ck_tile/ops/fmha/pipeline/block_fmha_pipeline_qr_ks_vs_async_trload_policy.hpp"
 #include "ck_tile/ops/reduce/block/block_reduce.hpp"

 namespace ck_tile {

 // This pipeline is qkv all located in LDS
-template <typename Problem_, typename Policy_ = BlockFmhaFwdDecodePipelineQRKSVSDefaultPolicy>
-struct BlockFmhaFwdDecodePipelineQRKSVS
+template <typename Problem_, typename Policy_ = BlockFmhaPipelineQRKSVSAsyncTrloadDefaultPolicy>
+struct BlockFmhaPipelineQRKSVSAsyncTrload
 {
    static constexpr auto I0 = number<0>{};
    static constexpr auto I1 = number<1>{};
--- a/include/ck_tile/ops/fmha/pipeline/block_fmha_pipeline_qr_ks_vs_async_trload_policy.hpp
+++ b/include/ck_tile/ops/fmha/pipeline/block_fmha_pipeline_qr_ks_vs_async_trload_policy.hpp
@@ -18,7 +18,7 @@
 #define CK_TILE_FMHA_HANDLE_XOR_LENGTH_FOLD 0
 namespace ck_tile {
 // This pipeline is qkv all located in LDS
-struct BlockFmhaFwdDecodePipelineQRKSVSDefaultPolicy
+struct BlockFmhaPipelineQRKSVSAsyncTrloadDefaultPolicy
    : BlockFmhaPipelineQXKSVSCustomPolicy</* QLoadOnce = */ true,
                                          /* AsyncCopy = */ false,
                                          /* NumPrefetchK = */ 1,
--- a/include/ck_tile/ops/fmha/pipeline/tile_fmha_traits.hpp
+++ b/include/ck_tile/ops/fmha/pipeline/tile_fmha_traits.hpp
@@ -114,55 +114,6 @@ struct TileFmhaFwdSplitKVCombineTraits
    static constexpr index_t kBlockPerCu = kBlockPerCu_;
 };

-template <bool kPadSeqLenQ_ /* padding for seqlen_q */,
-          bool kPadSeqLenK_ /* padding for seqlen_k */,
-          bool kPadHeadDimQ_ /* paddding for hdim_q */,
-          bool kPadHeadDimV_ /* paddding for hdim_v */,
-          bool kHasLogitsSoftCap_,
-          BlockAttentionBiasEnum BiasEnum_,
-          bool kHasBiasGrad_,
-          bool kStoreLSE_, /* set to true if either num_splits > 1 or fwd training is running */
-          bool kDoFp8StaticQuant_,
-          bool kIsPagedKV_,
-          bool kHasUnevenSplits_,
-          bool kMergeNumHeadGroupsSeqLenQ_ = false,
-          index_t kBlockPerCu_             = -1 /* overwrite occupancy if not -1 */>
-struct TileFmhaFwdDecodeTraits
-{
-    static constexpr bool kPadSeqLenQ       = kPadSeqLenQ_;
-    static constexpr bool kPadSeqLenK       = kPadSeqLenK_;
-    static constexpr bool kPadHeadDimQ      = kPadHeadDimQ_;
-    static constexpr bool kPadHeadDimV      = kPadHeadDimV_;
-    static constexpr bool kHasLogitsSoftCap = kHasLogitsSoftCap_;
-    static constexpr auto BiasEnum          = BiasEnum_;
-    static constexpr bool kHasBiasGrad      = kHasBiasGrad_;
-    static constexpr bool kStoreLSE         = kStoreLSE_;
-    static constexpr bool kDoFp8StaticQuant = kDoFp8StaticQuant_;
-    static constexpr bool kIsPagedKV        = kIsPagedKV_;
-    // determine if some split (length) is not divisible by tile size
-    static constexpr bool kHasUnevenSplits           = kHasUnevenSplits_;
-    static constexpr bool kMergeNumHeadGroupsSeqLenQ = kMergeNumHeadGroupsSeqLenQ_;
-    static constexpr index_t kBlockPerCu             = kBlockPerCu_;
-};
-
-template <bool kPadSeqLenQ_ /* padding for seqlen_q */,
-          bool kPadHeadDimV_ /* paddding for hdim_v */,
-          bool kStoreLSE_,
-          bool kDoFp8StaticQuant_,
-          index_t kLogMaxSplits_,
-          index_t kBlockPerCu_ = -1 /* overwrite occupancy if not -1 */>
-struct TileFmhaFwdDecodeCombineTraits
-{
-    static constexpr bool kPadSeqLenQ       = kPadSeqLenQ_;
-    static constexpr bool kPadHeadDimV      = kPadHeadDimV_;
-    static constexpr bool kStoreLSE         = kStoreLSE_;
-    static constexpr bool kDoFp8StaticQuant = kDoFp8StaticQuant_;
-
-    static constexpr index_t kMaxSplits = (1 << kLogMaxSplits_);
-    static_assert(kMaxSplits <= get_warp_size() || kMaxSplits % get_warp_size() == 0);
-    static constexpr index_t kBlockPerCu = kBlockPerCu_;
-};
-
 template <bool kPadSeqLenQ_ /* padding for seqlen_q */,
          bool kPadSeqLenK_ /* padding for seqlen_k */,
          bool kPadHeadDimQ_ /* paddding for hdim_q */,