composable_kernel/include/ck_tile/ops at 791afc64655301487cac6e5361c677a0a4b82059 - composable_kernel - Public git mirror

ROCm/composable_kernel

mirror of https://github.com/ROCm/composable_kernel.git synced 2026-05-04 05:31:24 +00:00

Files

History

Yi DING 791afc6465 [rocm-libraries] ROCm/rocm-libraries#5991 (commit 8d85e8e)

[CK_TILE] Fix FMHA BWD IGLP incorrect results due to AGPR
 misallocation (#5991)

## Motivation

After PR #5790 removed the `if constexpr(FmhaMask::IsMasking)` guard
around the
`num_total_loop <= 0` early-exit check, the IGLP pipeline
(`BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP`) produces incorrect dK/dV
gradients for
non-masking kernels (even with fix in #5915). Assembly inspection
confirms that the CFG change causes the LLVM
register allocator to reuse AGPR accumulators as scratch destinations in
the dK/dV
reduction loop, breaking the loop-carried accumulation across Q-tile
iterations.

## Technical Details

- Add `[[unlikely]]` to the `num_total_loop <= 0` early-exit in
`BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP`. This attribute is load-bearing:
it
restores the CFG shape that the register allocator needs to correctly
assign
  dedicated AGPRs to each column of the dK/dV accumulator.
- Only the IGLP pipeline is affected; the other two BWD pipelines do not
exhibit
  this issue.

## Test Plan

## Test Result

## Submission Checklist

- [x] Look over the contributing guidelines at

https://github.com/ROCm/ROCm/blob/develop/CONTRIBUTING.md#pull-requests.

2026-04-01 05:45:19 +00:00

..

add_rmsnorm2d_rdquant

…

batched_contraction

…

batched_transpose

…

[rocm-libraries] ROCm/rocm-libraries#5393 (commit d51b649)

2026-03-27 09:18:14 +00:00

[rocm-libraries] ROCm/rocm-libraries#5237 (commit ef10dc6)

2026-03-13 01:21:08 +00:00

[rocm-libraries] ROCm/rocm-libraries#5729 (commit 516c974)

2026-03-31 03:40:25 +00:00

[rocm-libraries] ROCm/rocm-libraries#5045 (commit 64a5502)

2026-03-03 21:55:14 +00:00

[rocm-libraries] ROCm/rocm-libraries#5991 (commit 8d85e8e)

2026-04-01 05:45:19 +00:00

[rocm-libraries] ROCm/rocm-libraries#4819 (commit b995a0b)

2026-02-25 16:13:13 +00:00

[rocm-libraries] ROCm/rocm-libraries#5842 (commit 04c5690)

2026-03-31 08:03:41 +00:00

[rocm-libraries] ROCm/rocm-libraries#5849 (commit d9b89b2)

2026-03-27 20:37:23 +00:00

[rocm-libraries] ROCm/rocm-libraries#5323 (commit 5454e9e)

2026-03-17 18:58:56 +00:00

grouped_convolution

[rocm-libraries] ROCm/rocm-libraries#5842 (commit 04c5690)

2026-03-31 08:03:41 +00:00

image_to_column

…

…

…

…

…

[CK Tile] multi reduce improvements (#3607 )

2026-01-27 12:56:09 -08:00

Fix redundant cast in model sensitive rmsnorm (#3681 )

2026-01-30 10:52:19 +08:00

…

[rocm-libraries] ROCm/rocm-libraries#4274 (commit 7c380df)

2026-02-11 05:52:42 +00:00

[CK_TILE][FMHA] Add sparse attention VSA (#3341 )

2026-01-31 00:59:47 +08:00

…

…

add_rmsnorm2d_rdquant.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

batched_contraction.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

batched_transpose.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

common.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

elementwise.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

epilogue.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

flatmm.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

fmha.hpp

[rocm-libraries] ROCm/rocm-libraries#4368 (commit 17f7dfc)

2026-03-11 10:00:52 +00:00

fused_moe.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

gemm_mx.hpp

[rocm-libraries] ROCm/rocm-libraries#5241 (commit 43daeac)

2026-03-12 08:27:49 +00:00

gemm_quant.hpp

[rocm-libraries] ROCm/rocm-libraries#4964 (commit 3271d9a)

2026-03-16 08:31:56 +00:00

gemm.hpp

[rocm-libraries] ROCm/rocm-libraries#4964 (commit 3271d9a)

2026-03-16 08:31:56 +00:00

grouped_convolution.hpp

[rocm-libraries] ROCm/rocm-libraries#5241 (commit 43daeac)

2026-03-12 08:27:49 +00:00

image_to_column.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

layernorm2d.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

moe_flatmm.hpp

…

norm_reduce.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

permute.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

pooling.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

reduce.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

rmsnorm2d.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

smoothquant.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

softmax.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

sparse_attn.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

topk_softmax.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00

topk.hpp

[rocm-libraries] ROCm/rocm-libraries#4294 (commit 6601702)

2026-03-02 12:21:44 +00:00