ik_llama.cpp

mirror of https://github.com/ikawrakow/ik_llama.cpp.git synced 2026-04-21 06:59:21 +00:00

Files

saood06 d58dee869a Deepseek MLA Optimizations V2 (#195 )

* Avoid allocating MHA KV cache when MLA is turned on

* Added missing gguf-py file

* Added final optimizations

Co-authored-by: Stanisław Szymczyk <sszymczy@gmail.com>

* Make sure we do have wk_b and wv_b before enabling MLA

---------

Co-authored-by: Stanisław Szymczyk <sszymczy@gmail.com>
Co-authored-by: Iwan Kawrakow <iwan.kawrakow@gmail.com>

2025-02-09 09:36:54 +02:00

__init__.py

Merge mainline llama.cpp (#3 )

2024-07-27 07:55:01 +02:00

constants.py

Deepseek MLA Optimizations

2025-02-08 11:04:01 +02:00

gguf_reader.py

Merge mainline llama.cpp (#3 )

2024-07-27 07:55:01 +02:00

gguf_writer.py

Deepseek V3 support added (#176 )