blis/kernels/zen4/3 at 145e7069921aa6aee581ff8037dbe504a9aaca4e - blis

amd/blis

mirror of https://github.com/amd/blis.git synced 2026-05-24 18:34:40 +00:00

Files

Shubham Sharma 16c56e0101 Added 24x8 triangular kernels for DGEMMT SUP

- In order to reuse 24x8 AVX512 DGEMM SUP kernels,
   24x8 triangular AVX512 DGEMMT SUP kernels are added.
 - Since the LCM of MR(24) and NR(8) is 24, therefore the diagonal
   pattern repeats every 24x24 block of C. To cover this 24x24 block,
   3 kernels are needed for one variant of DGEMMT. A total of 6
   kernels are needed to cover both upper and lower variants.
 - In order to maximize code reuse, the 24x8 kernels are broken
   into two parts, 8x8 diagonal GEMM and 16x8 full GEMM. The 8x8
   diagonal GEMM is computed by 8x8 diagonal kernel, and 16x8
   full GEMM part is computed by 24x8 DGEMM SUP kernel.
 - Changes are made in framework to enable the use of these kernels.

AMD-Internal: [CPUPL-5338]
Change-Id: I8e7007031e906f786b0c4fe12377ee439075207a

2024-07-22 12:02:30 -04:00

sup

Added 24x8 triangular kernels for DGEMMT SUP

2024-07-22 12:02:30 -04:00

bli_dgemm_avx512_k1.c

Added k=1 avx512 dgemm kernel.

2023-11-07 01:10:09 -05:00

bli_dgemm_zen4_asm_8x24.c

Fixed DGEMM 8x24 kernel for beta zero

2024-02-05 06:57:06 -05:00

bli_dgemm_zen4_asm_32x6.c

BLIS: Missing clobbers (batch 6)