composable_kernel/include/ck_tile/ops at 8d396d29f02be059c90d4cf3a8a11d7e238c95ec - composable_kernel - Public git mirror

ROCm/composable_kernel

mirror of https://github.com/ROCm/composable_kernel.git synced 2026-06-30 03:37:38 +00:00

Files

History

Amir Ghamarian 8d396d29f0 Add async prefetch overlap to single-warp-group pipeline

Move next iteration's K/V global loads (K_mem_load, V_mem_load) to
immediately after the barrier, before PV GEMM and K LDS read. This
overlaps the async global->LDS copies with the current iteration's
GEMM compute. Also remove redundant barriers between PV and QK phases
since K/V use separate LDS regions (no read/write conflicts).

Benchmark improvement (64-seq decode, d64 GQA-8):
  Phase 1: 0.03564ms -> Phase 2: 0.03406ms (~4.6% faster)
  Total vs original baseline: 0.06177ms -> 0.03406ms (1.81x speedup)

Made-with: Cursor

2026-03-28 10:47:45 +00:00

..

add_rmsnorm2d_rdquant

chore(copyright): update copyright header for include directory (#3293 )

2025-11-26 11:00:05 -07:00

batched_contraction

[CK Tile] batched contraction kernel generalizing (#3126 )

2025-12-02 13:30:27 +01:00

batched_transpose

chore(copyright): update copyright header for include directory (#3293 )

2025-11-26 11:00:05 -07:00

[CK_TILE] Stream-K Tree Reduction and Cache Skipping Integration (#3371 )

2025-12-14 14:49:49 -07:00

Shuffle fix for gfx950 (#3491 )

2026-01-13 09:21:29 -08:00

fix mxfp8-gemm example failure (#3531 )

2026-01-13 10:26:45 +08:00

Fix error when building with -DCMAKE_BUILD_TYPE=Debug (#3541 )

2026-01-15 09:35:24 -05:00

[CK_TILE][FMHA] Add new tile size for async (#3586 )

2026-01-19 15:22:33 -08:00

Shuffle fix for gfx950 (#3491 )

2026-01-13 09:21:29 -08:00

Shuffle fix for gfx950 (#3491 )

2026-01-13 09:21:29 -08:00

[CK TILE QUANT GEMM] use OverrideADataType in aquant pipeline (#3584 )

2026-01-16 15:27:39 -08:00

grouped_convolution

[CK TILE] Fix grouped conv kernels splitk and double lds (#3527 )

2026-01-08 07:59:38 +01:00

image_to_column

chore(copyright): update copyright header for include directory (#3293 )

2025-11-26 11:00:05 -07:00

chore(copyright): update copyright header for include directory (#3293 )

2025-11-26 11:00:05 -07:00

chore(copyright): update copyright header for include directory (#3293 )

2025-11-26 11:00:05 -07:00

chore(copyright): update copyright header for include directory (#3293 )

2025-11-26 11:00:05 -07:00

Shuffle fix for gfx950 (#3491 )

2026-01-13 09:21:29 -08:00

Shuffle fix for gfx950 (#3491 )

2026-01-13 09:21:29 -08:00

chore(copyright): update copyright header for include directory (#3293 )

2025-11-26 11:00:05 -07:00

chore(copyright): update copyright header for include directory (#3293 )

2025-11-26 11:00:05 -07:00

chore(copyright): update copyright header for include directory (#3293 )

2025-11-26 11:00:05 -07:00

chore(copyright): update copyright header for include directory (#3293 )

2025-11-26 11:00:05 -07:00

Shuffle fix for gfx950 (#3491 )

2026-01-13 09:21:29 -08:00

unified_attention

Add async prefetch overlap to single-warp-group pipeline

2026-03-28 10:47:45 +00:00

add_rmsnorm2d_rdquant.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

batched_contraction.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

batched_transpose.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

common.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

elementwise.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

epilogue.hpp

[CK_TILE] Epilogue chaining (Lwpck 3373) (#2773 )

2025-12-18 10:02:02 +01:00

flatmm.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

fmha.hpp

[FMHA] Batch Prefill Support Improvements: Change KV Cache Layout & Large Page Size Support (#3442 )

2026-01-05 18:41:47 +08:00

fused_moe.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

gemm_quant.hpp

[CK_TILE] add preshuffleB mode for ABQuant GEMM (#3495 )

2026-01-06 12:35:01 -08:00

gemm.hpp

Joye/revise wp pipeline (#3493 )

2026-01-05 13:49:26 -08:00

grouped_convolution.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

image_to_column.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

layernorm2d.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

moe_flatmm.hpp

chore(copyright): update copyright header for include directory (#3293 )

2025-11-26 11:00:05 -07:00

norm_reduce.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

permute.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

pooling.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

reduce.hpp

Dlejeune/ck tile 2d multiple reductions (#3147 )

2026-01-09 11:16:37 +01:00

rmsnorm2d.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

smoothquant.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

softmax.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

topk_softmax.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

topk.hpp

feat(precommit-hooks): add check for correct copyright header (#3302 )

2025-12-10 22:50:43 -08:00

unified_attention.hpp

refactor

2025-12-11 13:34:27 +00:00