ik_llama.cpp

mirror of https://github.com/ikawrakow/ik_llama.cpp.git synced 2026-02-20 13:14:09 +00:00

Files

Kawrakow 5236c98b41 CUDA: MMQ for iqX_r4 quants (#557 )

* cuda: MMQ for iq2_k_r4

* cuda: MMQ for iq3_k_r4

* cuda: MMQ for iq4_k_r4

* cuda: MMQ for iq5_k_r4

* iqk_r4 quants: use MMQ only for batches < 1024 tokens

---------

Co-authored-by: Iwan Kawrakow <iwan.kawrakow@gmail.com>

2025-06-26 08:50:49 +02:00

ggml-cann

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

ggml-cuda

CUDA: MMQ for iqX_r4 quants (#557 )

2025-06-26 08:50:49 +02:00

ggml-sycl

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

iqk

Much faster prompt processing for IQ1_S and IQ1_M on ARM_NEON (#553 )

2025-06-24 14:21:37 +02:00

kompute @ 4565194ed7

Merge mainline llama.cpp (#3 )

2024-07-27 07:55:01 +02:00

kompute-shaders

Merge mainline llama.cpp (#3 )

2024-07-27 07:55:01 +02:00

llamafile

Merge mainline llama.cpp (#3 )

2024-07-27 07:55:01 +02:00

vulkan-shaders

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

CMakeLists.txt

Update CMakeLists.txt to fix NDEBUG handling (#537 )

2025-06-19 10:18:21 +03:00

ggml-aarch64.c

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

ggml-aarch64.h

Merge mainline llama.cpp (#3 )

2024-07-27 07:55:01 +02:00

ggml-alloc.c

Fix ARM_NEON build failure due to q8_2 (#303 )

2025-04-01 13:48:20 +02:00

ggml-backend-impl.h

Merge mainline llama.cpp (#3 )

2024-07-27 07:55:01 +02:00

ggml-backend.c

Fix non rpc build error (#506 )

2025-06-08 17:27:00 +03:00

ggml-blas.cpp

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

ggml-cann.cpp

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

ggml-common.h

Much faster CPU prompt processing (part 1) (#531 )

2025-06-17 07:12:48 +03:00

ggml-cuda.cu

Better strategy for GPU offload (#520 )

2025-06-12 19:25:11 +03:00

ggml-impl.h

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

ggml-kompute.cpp

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

ggml-metal.m

Metal implementatio for the trellis quants. (#475 )

2025-06-01 15:23:44 +03:00

ggml-metal.metal

Faster ARM_NEON GEMM implementation for legacy quants (#546 )

2025-06-21 16:35:08 +02:00

ggml-quants.c

Trellis quants with CPU inference (#441 )

2025-05-23 09:17:52 +03:00

ggml-quants.h

IQ1_M_R4: better 1.75 bpw quants (#187 )

2025-02-06 14:08:52 +02:00

ggml-rpc.cpp

Fix non rpc build error (#506 )

2025-06-08 17:27:00 +03:00

ggml-sycl.cpp

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

ggml-vulkan.cpp

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

ggml.c

Much faster prompt processing for k-quants (ARM_NEON) (#552 )

2025-06-24 13:05:01 +02:00