ik_llama.cpp/src at 5cc15d0ecf69754d00e3602dda4ae4bfb8cc9106 - ik_llama.cpp - Public git mirror

ikawrakow/ik_llama.cpp

mirror of https://github.com/ikawrakow/ik_llama.cpp.git synced 2026-02-06 14:30:09 +00:00

Files

History

Kawrakow 5cc15d0ecf CUDA MoE improvements (#923 )

* Use mmq_id in mul_mat_id

* Better

* Also use it in the fused up+gate op

* Better -no-fmoe TG on CUDA

Still much slower than -fmoe, but abot 20-25% faster than what
we had before.

---------

Co-authored-by: Iwan Kawrakow <iwan.kawrakow@gmail.com>

2025-11-09 11:34:33 +02:00

..

Merge vulkan code from mainline up to commit of 6/28/2025 (#563 )

2025-07-02 08:49:42 +02:00

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

CUDA MoE improvements (#923 )

2025-11-09 11:34:33 +02:00

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

Fix iqk_mul_mat when number of rows is not multiple of repack rows (#911 )

2025-11-06 19:07:46 +02:00

kompute @ 4565194ed7

Merge mainline llama.cpp (#3 )

2024-07-27 07:55:01 +02:00

kompute-shaders

Merge mainline llama.cpp (#3 )

2024-07-27 07:55:01 +02:00

Merge mainline llama.cpp (#3 )

2024-07-27 07:55:01 +02:00

Port of Qwen3-VL support from mainline (#883 )

2025-11-04 19:20:54 +02:00

CMakeLists.txt

Adding cmake option to disable CUDA fusion (#902 )

2025-11-05 07:09:27 +02:00

ggml-aarch64.c

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

ggml-aarch64.h

Merge mainline llama.cpp (#3 )

2024-07-27 07:55:01 +02:00

ggml-alloc.c

Enable CUDA graphs for MoE models + GPT-OSS support (#689 )

2025-08-15 09:18:07 +03:00

ggml-backend-impl.h

Merge vulkan code from mainline up to commit of 6/28/2025 (#563 )

2025-07-02 08:49:42 +02:00

ggml-backend.cpp

Support --device and --device-draft parameter (#866 )

2025-10-27 18:13:28 +02:00

ggml-blas.cpp

Merge mainline - Aug 12 2024 (#17 )

2024-08-12 15:14:32 +02:00

ggml-cann.cpp

Merge vulkan code from mainline up to commit of 6/28/2025 (#563 )

2025-07-02 08:49:42 +02:00

ggml-common.h

AVX512+AVXVNNI GEMM implementation for quants using Q8_K for activations (#710 )

2025-08-22 06:27:07 +03:00

ggml-cuda.cu

CUDA MoE improvements (#923 )

2025-11-09 11:34:33 +02:00

ggml-impl.h

MXFP4 (#682 )

2025-08-09 08:40:18 +03:00

ggml-kompute.cpp

Merge vulkan code from mainline up to commit of 6/28/2025 (#563 )

2025-07-02 08:49:42 +02:00

ggml-metal.m

MXFP4 (#682 )

2025-08-09 08:40:18 +03:00

ggml-metal.metal

MXFP4 (#682 )

2025-08-09 08:40:18 +03:00

ggml-quants.c

Fix avx2 GEMM mess (v2) (#724 )

2025-08-27 08:03:47 +03:00

ggml-quants.h

IQ1_M_R4: better 1.75 bpw quants (#187 )

2025-02-06 14:08:52 +02:00

ggml-rpc.cpp

Merge vulkan code from mainline up to commit of 6/28/2025 (#563 )

2025-07-02 08:49:42 +02:00

ggml-sycl.cpp

Merge vulkan code from mainline up to commit of 6/28/2025 (#563 )

2025-07-02 08:49:42 +02:00

ggml-vulkan.cpp

Port of Qwen3-VL support from mainline (#883 )

2025-11-04 19:20:54 +02:00

ggml.c

Fix compilation failure after merging #883 (#900 )

2025-11-04 19:28:52 +02:00