Refactor iqk: Factor out GEMM for i-quants (AVX2/AVX512)

2026-04-29 10:51:51 +00:00 · 2025-05-17 16:34:25 +03:00
parent d355ff997b
commit 2cbbc5581f
5 changed files with 1016 additions and 780 deletions
--- a/ggml/src/CMakeLists.txt
+++ b/ggml/src/CMakeLists.txt
@@ -262,11 +262,13 @@ if (GGML_IQK_MUL_MAT)
                            iqk/iqk_flash_attn.cpp
                            iqk/iqk_gemm_floats.cpp
                            iqk/iqk_gemm_kquants.cpp
+                            iqk/iqk_gemm_iquants.cpp
                            iqk/iqk_gemm_legacy_quants.cpp)
    set(GGML_HEADERS_IQK_MM iqk/iqk_mul_mat.h
                            iqk/iqk_flash_impl.h
                            iqk/iqk_gemm_floats.h
                            iqk/iqk_gemm_kquants.h
+                            iqk/iqk_gemm_iquants.h
                            iqk/iqk_gemm_legacy_quants.h)
    if (GGML_IQK_FLASH_ATTENTION)
        message(STATUS "Enabling IQK Flash Attention kernels")
--- a/ggml/src/iqk/iqk_gemm_iquants.cpp
+++ b/ggml/src/iqk/iqk_gemm_iquants.cpp
@@ -0,0 +1,787 @@
+#include "iqk_gemm_iquants.h"
+
+#ifdef IQK_IMPLEMENT
+
+#include "ggml-impl.h"
+
+#define GGML_COMMON_IMPL_C
+#include "ggml-common.h"
+
+namespace {
+
+inline __m256i get_scale_shuffle_8(int i) {
+    return _mm256_set1_epi16((2*i) | ((2*i+1) << 8));
+}
+
+inline void set_scales_8(const __m256i& all_scales, int j, __m256i * scales) {
+    scales[0] = _mm256_shuffle_epi8(all_scales, get_scale_shuffle_8(4*j+0));
+    scales[1] = _mm256_shuffle_epi8(all_scales, get_scale_shuffle_8(4*j+1));
+    scales[2] = _mm256_shuffle_epi8(all_scales, get_scale_shuffle_8(4*j+2));
+    scales[3] = _mm256_shuffle_epi8(all_scales, get_scale_shuffle_8(4*j+3));
+}
+
+inline __m256i get_scale_shuffle_16(int i) {
+    static const uint8_t k_shuffle[128] = {
+         0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1,     2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3,
+         4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5,     6, 7, 6, 7, 6, 7, 6, 7, 6, 7, 6, 7, 6, 7, 6, 7,
+         8, 9, 8, 9, 8, 9, 8, 9, 8, 9, 8, 9, 8, 9, 8, 9,    10,11,10,11,10,11,10,11,10,11,10,11,10,11,10,11,
+        12,13,12,13,12,13,12,13,12,13,12,13,12,13,12,13,    14,15,14,15,14,15,14,15,14,15,14,15,14,15,14,15,
+    };
+    return _mm256_loadu_si256((const __m256i*)k_shuffle + i);
+}
+
+inline void set_scales_16(const __m256i& all_scales, __m256i * scales) {
+    scales[0] = _mm256_shuffle_epi8(all_scales, get_scale_shuffle_16(0));
+    scales[1] = _mm256_shuffle_epi8(all_scales, get_scale_shuffle_16(1));
+    scales[2] = _mm256_shuffle_epi8(all_scales, get_scale_shuffle_16(2));
+    scales[3] = _mm256_shuffle_epi8(all_scales, get_scale_shuffle_16(3));
+}
+
+// TODO: find the bug that causes this to be called without HAVE_FANCY_SIMD, which triggers
+//       writing 4 vvalues into scales, which is of size 2.
+inline void set_scales_8_iq(int j, const __m256i& all_scales, __m256i * scales) {
+//#ifdef HAVE_FANCY_SIMD
+    auto shuffle = j == 0 ? _mm256_set_epi64x(0x0302030203020302, 0x0100010001000100, 0x0302030203020302, 0x0100010001000100)
+                          : _mm256_set_epi64x(0x0b0a0b0a0b0a0b0a, 0x0908090809080908, 0x0b0a0b0a0b0a0b0a, 0x0908090809080908);
+    scales[0] = _mm256_shuffle_epi8(all_scales, shuffle);
+    scales[1] = _mm256_shuffle_epi8(all_scales, _mm256_add_epi8(shuffle, _mm256_set1_epi8(4)));
+//#else
+//    set_scales_8(all_scales, j, scales);
+//#endif
+}
+
+inline void set_scales_16_iq(const __m256i& all_scales, __m256i * scales) {
+#ifdef HAVE_FANCY_SIMD
+    auto shuffle = _mm256_set_epi64x(0x0706070607060706, 0x0302030203020302, 0x0504050405040504, 0x0100010001000100);
+    scales[0] = _mm256_shuffle_epi8(all_scales, shuffle);
+    scales[1] = _mm256_shuffle_epi8(all_scales, _mm256_add_epi8(shuffle, _mm256_set1_epi8(8)));
+#else
+    set_scales_16(all_scales, scales);
+#endif
+}
+
+struct SimpleBits {
+    __m256i values[4];
+};
+
+struct EvenSignHelper {
+#if defined HAVE_FANCY_SIMD && defined __AVX512VPOPCNTDQ__
+    union sbits_t {
+        __m128i vec;
+        __mmask32 mask[4];
+    };
+    IQK_ALWAYS_INLINE void sign_2_values(__m256i aux, __m256i * values) const {
+        aux = _mm256_and_si256(_mm256_srlv_epi32(aux, shifts), mask);
+        auto pcnt = _mm256_popcnt_epi32(aux);
+        sbits_t sbits;
+        sbits.vec = _mm256_cvtepi32_epi8(_mm256_or_si256(aux, _mm256_slli_epi32(_mm256_and_si256(pcnt, mone), 7)));
+        values[0] = _mm256_mask_sub_epi8(values[0], sbits.mask[0], _mm256_setzero_si256(), values[0]);
+        values[1] = _mm256_mask_sub_epi8(values[1], sbits.mask[1], _mm256_setzero_si256(), values[1]);
+        //auto sign_bits = _mm256_cvtepi32_epi8(_mm256_or_si256(aux, _mm256_slli_epi32(_mm256_and_si256(pcnt, mone), 7)));
+        //const __mmask32 * m32 = (const __mmask32 *)&sign_bits;
+        //values[0] = _mm256_mask_sub_epi8(values[0], m32[0], _mm256_setzero_si256(), values[0]);
+        //values[1] = _mm256_mask_sub_epi8(values[1], m32[1], _mm256_setzero_si256(), values[1]);
+    }
+    const __m256i shifts = _mm256_set_epi32(21, 14, 7, 0, 21, 14, 7, 0);
+    const __m256i mask   = _mm256_set1_epi32(127);
+    const __m256i mone   = _mm256_set1_epi32(1);
+#else
+    inline void sign_value(uint32_t aux32, __m256i& value) const {
+        auto signs = _mm256_set_epi64x(keven_signs[(aux32 >> 21) & 127], keven_signs[(aux32 >> 14) & 127],
+                                       keven_signs[(aux32 >>  7) & 127], keven_signs[(aux32 >>  0) & 127]);
+        value = _mm256_sign_epi8(value, signs);
+    }
+#endif
+};
+
+struct SignHelper {
+    inline __m256i make_signs(uint32_t sign_bits) const {
+        auto aux256 = _mm256_set1_epi32(sign_bits);
+        aux256 = _mm256_and_si256(_mm256_shuffle_epi8(aux256, mask1), mask2);
+        return _mm256_or_si256(_mm256_cmpeq_epi8(aux256, mask2), mone);
+    }
+//    inline __m256i make_signs(const uint16_t * sign_bits) const {
+//#ifdef HAVE_FANCY_SIMD
+//#else
+//        return make_signs(sign_bits[0] | (sign_bits[1] << 16));
+//#endif
+//    }
+    inline __m256i sign_value(const uint16_t * sign_bits, const __m256i& value) const {
+#ifdef HAVE_FANCY_SIMD
+        const __mmask32 * mask = (const __mmask32 *)sign_bits;
+        return _mm256_mask_sub_epi8(value, mask[0], _mm256_setzero_si256(), value);
+#else
+        return _mm256_sign_epi8(value, make_signs(sign_bits[0] | (sign_bits[1] << 16)));
+#endif
+    }
+    inline void sign_4_values(const uint16_t * sign_bits, __m256i * values) const {
+#ifdef HAVE_FANCY_SIMD
+        const __mmask32 * mask = (const __mmask32 *)sign_bits;
+        values[0] = _mm256_mask_sub_epi8(values[0], mask[0], _mm256_setzero_si256(), values[0]);
+        values[1] = _mm256_mask_sub_epi8(values[1], mask[1], _mm256_setzero_si256(), values[1]);
+        values[2] = _mm256_mask_sub_epi8(values[2], mask[2], _mm256_setzero_si256(), values[2]);
+        values[3] = _mm256_mask_sub_epi8(values[3], mask[3], _mm256_setzero_si256(), values[3]);
+#else
+        auto s128 = _mm_loadu_si128((const __m128i *)sign_bits);
+        auto s256 = MM256_SET_M128I(s128, s128);
+        __m256i aux256;
+        auto shuffle = mask1;
+        auto step = _mm256_set1_epi8(4);
+        aux256 = _mm256_and_si256(_mm256_shuffle_epi8(s256, shuffle), mask2); shuffle = _mm256_add_epi8(shuffle, step);
+        values[0] = _mm256_sign_epi8(values[0], _mm256_or_si256(_mm256_cmpeq_epi8(aux256, mask2), mone));
+        aux256 = _mm256_and_si256(_mm256_shuffle_epi8(s256, shuffle), mask2); shuffle = _mm256_add_epi8(shuffle, step);
+        values[1] = _mm256_sign_epi8(values[1], _mm256_or_si256(_mm256_cmpeq_epi8(aux256, mask2), mone));
+        aux256 = _mm256_and_si256(_mm256_shuffle_epi8(s256, shuffle), mask2); shuffle = _mm256_add_epi8(shuffle, step);
+        values[2] = _mm256_sign_epi8(values[2], _mm256_or_si256(_mm256_cmpeq_epi8(aux256, mask2), mone));
+        aux256 = _mm256_and_si256(_mm256_shuffle_epi8(s256, shuffle), mask2); shuffle = _mm256_add_epi8(shuffle, step);
+        values[3] = _mm256_sign_epi8(values[3], _mm256_or_si256(_mm256_cmpeq_epi8(aux256, mask2), mone));
+#endif
+    }
+    const __m256i mask1 = _mm256_set_epi64x(0x0303030303030303, 0x0202020202020202, 0x0101010101010101, 0x0000000000000000);
+    const __m256i mask2 = _mm256_set1_epi64x(0x8040201008040201ull);
+    const __m256i mone  = _mm256_set1_epi8(1);
+};
+
+struct DequantizerIQ2XXS final : public BaseDequantizer<block_iq2_xxs> {
+    DequantizerIQ2XXS(const void * vx, size_t bx) : BaseDequantizer(vx, bx) {}
+
+    constexpr static int num_blocks = 8;
+
+    union Data {
+        __m256i vec;
+        uint32_t val[8];
+    };
+
+    inline __m128i load_scales(int i) {
+        d = 0.125f * GGML_FP16_TO_FP32(x[i].d);
+        const uint16_t * a16 = (const uint16_t *)x[i].qs;
+        auto scales = _mm_srli_epi16(_mm_set_epi16(a16[31], a16[27], a16[23], a16[19], a16[15], a16[11], a16[7], a16[3]), 12);
+        return _mm_or_si128(_mm_slli_epi16(scales, 1), _mm_set1_epi16(1));
+    }
+
+    inline void new_block(int i, __m256i * scales) {
+        auto sc16 = load_scales(i);
+        scales[0] = MM256_SET_M128I(sc16, sc16);
+    }
+    inline float new_block(int i, __m256i * scales, __m256i& mins) {
+        auto sc16 = load_scales(i);
+        mins = scb.shuffle(sc16);
+        scales[0] = MM256_SET_M128I(sc16, sc16);
+        return -d*minv;
+    }
+
+    inline static void make4(const uint32_t * aux32, __m256i * values) {
+        const uint8_t * aux8 = (const uint8_t *)aux32;
+        values[0] = _mm256_set_epi64x(iq2xxs_grid[aux8[ 3]], iq2xxs_grid[aux8[ 2]], iq2xxs_grid[aux8[ 1]], iq2xxs_grid[aux8[ 0]]);
+        values[1] = _mm256_set_epi64x(iq2xxs_grid[aux8[11]], iq2xxs_grid[aux8[10]], iq2xxs_grid[aux8[ 9]], iq2xxs_grid[aux8[ 8]]);
+        values[2] = _mm256_set_epi64x(iq2xxs_grid[aux8[19]], iq2xxs_grid[aux8[18]], iq2xxs_grid[aux8[17]], iq2xxs_grid[aux8[16]]);
+        values[3] = _mm256_set_epi64x(iq2xxs_grid[aux8[27]], iq2xxs_grid[aux8[26]], iq2xxs_grid[aux8[25]], iq2xxs_grid[aux8[24]]);
+    }
+
+    IQK_ALWAYS_INLINE void sign_values(const uint32_t * aux32, __m256i * values) const {
+#if defined HAVE_FANCY_SIMD && defined __AVX512VPOPCNTDQ__
+        esh.sign_2_values(MM256_SET_M128I(_mm_set1_epi32(aux32[3]), _mm_set1_epi32(aux32[1])), values+0);
+        esh.sign_2_values(MM256_SET_M128I(_mm_set1_epi32(aux32[7]), _mm_set1_epi32(aux32[5])), values+2);
+#else
+        esh.sign_value(aux32[1], values[0]);
+        esh.sign_value(aux32[3], values[1]);
+        esh.sign_value(aux32[5], values[2]);
+        esh.sign_value(aux32[7], values[3]);
+#endif
+    }
+    inline void make4_signed(const uint32_t * aux32, const __m256i& min_value, __m256i * values) const {
+        make4(aux32, values);
+        sign_values(aux32, values);
+        for (int k = 0; k < 4; ++k) values[k] = _mm256_add_epi8(values[k], min_value);
+    }
+    inline void make4(const uint32_t * aux32, __m256i * values, __m256i * q8) const {
+        make4(aux32, values);
+        sign_values(aux32, q8);
+    }
+    inline void prepare(int i, int j) {
+        Data data; data.vec = _mm256_loadu_si256((const __m256i *)x[i].qs + j);
+        make4_signed(data.val, min_value, bits.values);
+    }
+    inline void prepare(int i, int j, const Q8<1>& q8, __m256i * q8_quants) {
+        for (int k = 0; k < 4; ++k) q8_quants[k] = q8.load_quants(0, i, 4*j+k);
+        Data data; data.vec = _mm256_loadu_si256((const __m256i *)x[i].qs + j); 
+        make4(data.val, bits.values, q8_quants);
+    }
+
+    constexpr static int minv = 43;
+    SimpleBits bits;
+    Scales8KBase scb;
+    EvenSignHelper esh;
+    const __m256i min_value = _mm256_set1_epi8(minv);
+    const __m256i shuffle = _mm256_set_epi32(7, 5, 3, 1, 7, 5, 3, 1);
+};
+
+struct DequantizerIQ2XS final : public BaseDequantizer<block_iq2_xs> {
+    DequantizerIQ2XS(const void * vx, size_t bx) : BaseDequantizer(vx, bx) {}
+
+    constexpr static int num_blocks = 16;
+
+    inline __m256i load_scales(int i) {
+        d = 0.125f * GGML_FP16_TO_FP32(x[i].d);
+        auto tmp = _mm_loadl_epi64((const __m128i *)x[i].scales);
+        auto all = _mm_and_si128(_mm_unpacklo_epi8(tmp, _mm_srli_epi16(tmp, 4)), _mm_set1_epi8(0xf));
+        auto scales8 = _mm_or_si128(_mm_slli_epi16(all, 1), _mm_set1_epi8(1));
+        return _mm256_cvtepi8_epi16(scales8);
+    }
+    inline static void prepare_scales(const __m256i& all, __m256i * scales) {
+        auto scales_l = _mm256_castsi256_si128(all);
+        auto scales_h = _mm256_extractf128_si256(all, 1);
+        scales[0] = MM256_SET_M128I(scales_l, scales_l);
+        scales[1] = MM256_SET_M128I(scales_h, scales_h);
+    }
+
+    inline void new_block(int i, __m256i * scales) {
+        prepare_scales(load_scales(i), scales);
+    }
+    inline float new_block(int i, __m256i * scales, __m256i& mins) {
+        mins = load_scales(i);
+        prepare_scales(mins, scales);
+        return -d*minv;
+    }
+
+    struct Helper {
+        const __m256i mone = _mm256_set1_epi8(1);
+        const __m256i mask = _mm256_set1_epi64x(0x8040201008040201);
+        //const __m256i bhelper = _mm256_set_epi64x(0x8000008000808000, 0x0080800080000080, 0x8000008000808000, 0x0080800080000080);
+        const __m256i bhelper = load_bhelper();
+        const __m256i shuff1  = _mm256_set_epi64x(0x0606060606060606, 0x0404040404040404, 0x0202020202020202, 0x0000000000000000);
+        const __m256i shuff2  = _mm256_set_epi64x(0x0e0e0e0e0e0e0e0e, 0x0c0c0c0c0c0c0c0c, 0x0a0a0a0a0a0a0a0a, 0x0808080808080808);
+        static __m256i load_bhelper() {
+            static const uint8_t k_bit_helper[32] = {
+                0x00, 0x80, 0x80, 0x00, 0x80, 0x00, 0x00, 0x80, 0x80, 0x00, 0x00, 0x80, 0x00, 0x80, 0x80, 0x00,
+                0x00, 0x80, 0x80, 0x00, 0x80, 0x00, 0x00, 0x80, 0x80, 0x00, 0x00, 0x80, 0x00, 0x80, 0x80, 0x00,
+            };
+            return _mm256_loadu_si256((const __m256i*)k_bit_helper);
+        }
+    };
+
+    union index_t {
+        __m256i vec;
+        uint16_t val[8];
+    };
+
+    inline static void make4(const __m256i& data, const __m256i& mask, __m256i * values) {
+        index_t idx;
+        idx.vec = _mm256_and_si256(data, mask);
+        values[0] = _mm256_set_epi64x(iq2xs_grid[idx.val[ 3]], iq2xs_grid[idx.val[ 2]], iq2xs_grid[idx.val[ 1]], iq2xs_grid[idx.val[ 0]]);
+        values[1] = _mm256_set_epi64x(iq2xs_grid[idx.val[ 7]], iq2xs_grid[idx.val[ 6]], iq2xs_grid[idx.val[ 5]], iq2xs_grid[idx.val[ 4]]);
+        values[2] = _mm256_set_epi64x(iq2xs_grid[idx.val[11]], iq2xs_grid[idx.val[10]], iq2xs_grid[idx.val[ 9]], iq2xs_grid[idx.val[ 8]]);
+        values[3] = _mm256_set_epi64x(iq2xs_grid[idx.val[15]], iq2xs_grid[idx.val[14]], iq2xs_grid[idx.val[13]], iq2xs_grid[idx.val[12]]);
+    }
+    inline static void sign_value(const __m256i& sign_bits, const __m256i& shuffle, const __m256i& mask,
+            const __m256i& mone, __m256i& value) {
+        auto signs = _mm256_shuffle_epi8(sign_bits, shuffle);
+        signs = _mm256_cmpeq_epi8(_mm256_and_si256(signs, mask), mask);
+        value = _mm256_sign_epi8(value, _mm256_or_si256(signs, mone));
+    }
+    inline void sign_values(const __m256i& data, __m256i * values) const {
+#if defined HAVE_FANCY_SIMD && defined __AVX512VPOPCNTDQ__
+        auto partial_bits = _mm256_cvtepi16_epi8(_mm256_srli_epi16(data,  9));
+        auto pcnt = _mm_popcnt_epi8(partial_bits);
+        auto full_bits = _mm_or_si128(partial_bits, _mm_slli_epi16(_mm_and_si128(pcnt, _mm_set1_epi8(1)), 7));
+        const __mmask32 * m32 = (const __mmask32 *)&full_bits;
+        auto zero = _mm256_setzero_si256();
+        values[0] = _mm256_mask_sub_epi8(values[0], m32[0], zero, values[0]);
+        values[1] = _mm256_mask_sub_epi8(values[1], m32[1], zero, values[1]);
+        values[2] = _mm256_mask_sub_epi8(values[2], m32[2], zero, values[2]);
+        values[3] = _mm256_mask_sub_epi8(values[3], m32[3], zero, values[3]);
+#else
+        auto psb1 = _mm256_srli_epi16(data,  9);
+        auto psb2 = _mm256_srli_epi16(data, 13);
+        auto psbc = _mm256_xor_si256(psb1, psb2);
+        auto oddb = _mm256_shuffle_epi8(helper.bhelper, psbc);
+        auto full = _mm256_or_si256(psb1, oddb);
+        auto full_l = _mm256_castsi256_si128(full);
+        auto full_h = _mm256_extractf128_si256(full, 1);
+        auto full_1 = MM256_SET_M128I(full_l, full_l);
+        auto full_2 = MM256_SET_M128I(full_h, full_h);
+        sign_value(full_1, helper.shuff1, helper.mask, helper.mone, values[0]);
+        sign_value(full_1, helper.shuff2, helper.mask, helper.mone, values[1]);
+        sign_value(full_2, helper.shuff1, helper.mask, helper.mone, values[2]);
+        sign_value(full_2, helper.shuff2, helper.mask, helper.mone, values[3]);
+#endif
+    }
+    inline void make4_signed(const uint16_t * qs, const __m256i& m511,
+            const __m256i& min_value, __m256i * values) const {
+        auto q2 = _mm256_loadu_si256((const __m256i *)qs);
+        make4(q2, m511, values);
+        sign_values(q2, values);
+        for (int k = 0; k < 4; ++k) values[k] = _mm256_add_epi8(values[k], min_value);
+    }
+    inline void make4(const uint16_t * qs, const __m256i& m511, __m256i * values, __m256i * q8) const {
+        auto q2 = _mm256_loadu_si256((const __m256i *)qs);
+        make4(q2, m511, values);
+        sign_values(q2, q8);
+    }
+
+    inline void prepare(int i, int j) {
+        make4_signed(x[i].qs + 16*j, idx_mask, min_value, bits.values);
+    }
+    inline void prepare(int i, int j, const Q8<1>& q8, __m256i * q8_quants) {
+        for (int k = 0; k < 4; ++k) q8_quants[k] = q8.load_quants(0, i, 4*j+k);
+        make4(x[i].qs + 16*j, idx_mask, bits.values, q8_quants);
+    }
+
+    constexpr static int minv = 43;
+
+    SimpleBits bits;
+#if !(defined HAVE_FANCY_SIMD && defined __AVX512VPOPCNTDQ__)
+    Helper helper;
+#endif
+    const __m256i idx_mask  = _mm256_set1_epi16(511);
+    const __m256i min_value = _mm256_set1_epi8(minv);
+
+};
+
+struct DequantizerIQ2S final : public BaseDequantizer<block_iq2_s> {
+    DequantizerIQ2S(const void * vx, size_t bx) : BaseDequantizer(vx, bx) {}
+
+    constexpr static int num_blocks = 16;
+
+    inline __m256i load_scales(int i) {
+        d = 0.125f * GGML_FP16_TO_FP32(x[i].d);
+        auto tmp = _mm_loadl_epi64((const __m128i *)x[i].scales);
+        auto all = _mm_and_si128(_mm_unpacklo_epi8(tmp, _mm_srli_epi16(tmp, 4)), _mm_set1_epi8(0xf));
+        auto scales8 = _mm_or_si128(_mm_slli_epi16(all, 1), _mm_set1_epi8(1));
+        return _mm256_cvtepi8_epi16(scales8);
+    }
+    inline static void prepare_scales(const __m256i& all, __m256i * scales) {
+        auto scales_l = _mm256_castsi256_si128(all);
+        auto scales_h = _mm256_extractf128_si256(all, 1);
+        scales[0] = MM256_SET_M128I(scales_l, scales_l);
+        scales[1] = MM256_SET_M128I(scales_h, scales_h);
+    }
+
+    inline void new_block(int i, __m256i * scales) {
+        prepare_scales(load_scales(i), scales);
+    }
+    inline float new_block(int i, __m256i * scales, __m256i& mins) {
+        mins = load_scales(i);
+        prepare_scales(mins, scales);
+        return -d*minv;
+    }
+
+    union index_t {
+        __m256i vec;
+        uint32_t val[8];
+    };
+
+    inline static void make2(const uint8_t * qs, const uint8_t * qh, const __m256i& idx_shift, const __m256i& idx_mask, __m256i * values) {
+        auto idx_l = _mm256_cvtepu8_epi32(_mm_loadl_epi64((const __m128i *)qs));
+        auto idx_h = MM256_SET_M128I(_mm_set1_epi32(qh[1]), _mm_set1_epi32(qh[0]));
+        index_t idx;
+        idx.vec = _mm256_or_si256(idx_l, _mm256_and_si256(_mm256_sllv_epi32(idx_h, idx_shift), idx_mask));
+        values[0] = _mm256_set_epi64x(iq2s_grid[idx.val[3]], iq2s_grid[idx.val[2]], iq2s_grid[idx.val[1]], iq2s_grid[idx.val[0]]);
+        values[1] = _mm256_set_epi64x(iq2s_grid[idx.val[7]], iq2s_grid[idx.val[6]], iq2s_grid[idx.val[5]], iq2s_grid[idx.val[4]]);
+    }
+    inline static void make2_signed(const SignHelper& sh, const uint8_t * qs, const uint8_t * qh, const uint16_t * sidx,
+            const __m256i& idx_shift, const __m256i& idx_mask, const __m256i& min_value, __m256i * values) {
+        make2(qs, qh, idx_shift, idx_mask, values);
+        values[0] = _mm256_add_epi8(sh.sign_value(sidx+0, values[0]), min_value);
+        values[1] = _mm256_add_epi8(sh.sign_value(sidx+2, values[1]), min_value);
+    }
+
+    inline void prepare(int i, int j) {
+        auto qs = x[i].qs + 16*j;
+        auto qh = x[i].qh +  4*j;
+        const uint16_t * signs = (const uint16_t *)(x[i].qs + QK_K/8) + 8*j;
+        make2_signed(sh, qs+0, qh+0, signs+0, idx_shift, idx_mask, min_value, bits.values+0);
+        make2_signed(sh, qs+8, qh+2, signs+4, idx_shift, idx_mask, min_value, bits.values+2);
+    }
+    inline void prepare(int i, int j, const Q8<1>& q8, __m256i * q8_quants) {
+        auto qs = x[i].qs + 16*j;
+        auto qh = x[i].qh +  4*j;
+        const uint16_t * signs = (const uint16_t *)(x[i].qs + QK_K/8) + 8*j;
+        make2(qs+0, qh+0, idx_shift, idx_mask, bits.values+0);
+        make2(qs+8, qh+2, idx_shift, idx_mask, bits.values+2);
+        q8_quants[0] = _mm256_sign_epi8(q8.load_quants(0, i, 4*j+0), sh.make_signs(signs[0] | (signs[1] << 16)));
+        q8_quants[1] = _mm256_sign_epi8(q8.load_quants(0, i, 4*j+1), sh.make_signs(signs[2] | (signs[3] << 16)));
+        q8_quants[2] = _mm256_sign_epi8(q8.load_quants(0, i, 4*j+2), sh.make_signs(signs[4] | (signs[5] << 16)));
+        q8_quants[3] = _mm256_sign_epi8(q8.load_quants(0, i, 4*j+3), sh.make_signs(signs[6] | (signs[7] << 16)));
+    }
+
+    constexpr static int minv = 43;
+
+    SimpleBits bits;
+    SignHelper sh;
+    const __m256i idx_shift = _mm256_set_epi32(2, 4, 6, 8, 2, 4, 6, 8);
+    const __m256i idx_mask  = _mm256_set1_epi32(0x300);
+    const __m256i min_value = _mm256_set1_epi8(minv);
+
+};
+
+struct DequantizerIQ3XXS final : public BaseDequantizer<block_iq3_xxs> {
+    DequantizerIQ3XXS(const void * vx, size_t bx) : BaseDequantizer(vx, bx) {}
+
+    constexpr static int num_blocks = 8;
+
+    inline __m128i prepare_scales(int i) {
+        d = 0.25f * GGML_FP16_TO_FP32(x[i].d);
+        auto tmp = _mm256_loadu_si256((const __m256i *)(x[i].qs + QK_K/4));
+        auto scales32 = _mm256_srli_epi32(tmp, 28);
+        scales32 = _mm256_or_si256(_mm256_slli_epi32(scales32, 1), _mm256_set1_epi32(1));
+        return _mm_packs_epi32(_mm256_castsi256_si128(scales32), _mm256_extractf128_si256(scales32, 1));
+    }
+
+    inline void new_block(int i, __m256i * scales) {
+        auto scales16 = prepare_scales(i);
+        scales[0] = MM256_SET_M128I(scales16, scales16);
+    }
+    inline float new_block(int i, __m256i * scales, __m256i& mins) {
+        auto scales16 = prepare_scales(i);
+        mins = scb.shuffle(scales16);
+        scales[0] = MM256_SET_M128I(scales16, scales16);
+        return -d*minv;
+    }
+
+    inline static __m256i make_quants(const uint8_t * qs) {
+        return _mm256_set_epi32(iq3xxs_grid[qs[7]], iq3xxs_grid[qs[6]], iq3xxs_grid[qs[5]], iq3xxs_grid[qs[4]],
+                                iq3xxs_grid[qs[3]], iq3xxs_grid[qs[2]], iq3xxs_grid[qs[1]], iq3xxs_grid[qs[0]]);
+    }
+    inline static void make4_unsigned(const uint8_t * qs, __m256i * values) {
+        values[0] = make_quants(qs+ 0);
+        values[1] = make_quants(qs+ 8);
+        values[2] = make_quants(qs+16);
+        values[3] = make_quants(qs+24);
+    }
+
+    IQK_ALWAYS_INLINE void sign_2_values(const uint16_t * signs, __m256i * values) const {
+#if defined HAVE_FANCY_SIMD && defined __AVX512VPOPCNTDQ__
+        esh.sign_2_values(MM256_SET_M128I(_mm_set1_epi32(signs[2] | (signs[3] << 16)), _mm_set1_epi32(signs[0] | (signs[1] << 16))), values);
+#else
+        esh.sign_value(signs[0] | (signs[1] << 16), values[0]);
+        esh.sign_value(signs[2] | (signs[3] << 16), values[1]);
+#endif
+    }
+
+    inline void prepare(int i, int j) {
+        auto qs = x[i].qs + 32*j;
+        const uint16_t * signs = (const uint16_t *)(x[i].qs + QK_K/4) + 8*j;
+        make4_unsigned(qs, bits.values);
+        sign_2_values(signs+0, bits.values+0);
+        sign_2_values(signs+4, bits.values+2);
+        for (int k = 0; k < 4; ++k) bits.values[k] = _mm256_add_epi32(bits.values[k], min_value);
+    }
+    inline void prepare(int i, int j, const Q8<1>& q8, __m256i * q8_quants) {
+        for (int k = 0; k < 4; ++k) q8_quants[k] = q8.load_quants(0, i, 4*j+k);
+        auto qs = x[i].qs + 32*j;
+        const uint16_t * signs = (const uint16_t *)(x[i].qs + QK_K/4) + 8*j;
+        make4_unsigned(qs, bits.values);
+        sign_2_values(signs+0, q8_quants+0);
+        sign_2_values(signs+4, q8_quants+2);
+    }
+
+    constexpr static int minv = 64;
+
+    SimpleBits bits;
+    Scales8KBase scb;
+    EvenSignHelper esh;
+    const __m256i min_value = _mm256_set1_epi8(minv);
+
+};
+
+#ifdef HAVE_FANCY_SIMD
+// Strangely enough, the following implementation makes PP ~6% slower and TG ~6% faster
+// compared to the vanilla AVX2 version below.
+struct IndexHelperIQ3S {
+    union index_t {
+        __m256i  vec;
+        uint16_t val[16];
+    };
+    inline void make2(const uint8_t * qs, const uint8_t * qh, __m256i * values) const {
+        auto idx_l = _mm256_cvtepu8_epi16(_mm_loadu_si128((const __m128i *)qs));
+        const __mmask16 * m16 = (const __mmask16 *)qh;
+        index_t idx;
+        idx.vec = _mm256_mask_add_epi16(idx_l, m16[0], idx_l, offset);
+        values[0] = _mm256_set_epi32(iq3s_grid[idx.val[ 7]], iq3s_grid[idx.val[ 6]], iq3s_grid[idx.val[ 5]], iq3s_grid[idx.val[ 4]],
+                                     iq3s_grid[idx.val[ 3]], iq3s_grid[idx.val[ 2]], iq3s_grid[idx.val[ 1]], iq3s_grid[idx.val[ 0]]);
+        values[1] = _mm256_set_epi32(iq3s_grid[idx.val[15]], iq3s_grid[idx.val[14]], iq3s_grid[idx.val[13]], iq3s_grid[idx.val[12]],
+                                     iq3s_grid[idx.val[11]], iq3s_grid[idx.val[10]], iq3s_grid[idx.val[ 9]], iq3s_grid[idx.val[ 8]]);
+    }
+    const __m256i offset = _mm256_set1_epi16(256);
+};
+#else
+struct IndexHelperIQ3S {
+    union index_t {
+        __m256i  vec;
+        uint32_t val[8];
+    };
+    inline void make2(const uint8_t * qs, const uint8_t * qh, __m256i * values) const {
+        index_t idx;
+        auto idx_l = _mm256_cvtepu8_epi32(_mm_loadl_epi64((const __m128i *)qs));
+        auto idx_h = _mm256_and_si256(_mm256_sllv_epi32(_mm256_set1_epi32(qh[0]), idx_shift), idx_mask);
+        idx.vec = _mm256_or_si256(idx_h, idx_l);
+        values[0] = _mm256_set_epi32(iq3s_grid[idx.val[7]], iq3s_grid[idx.val[6]], iq3s_grid[idx.val[5]], iq3s_grid[idx.val[4]],
+                                     iq3s_grid[idx.val[3]], iq3s_grid[idx.val[2]], iq3s_grid[idx.val[1]], iq3s_grid[idx.val[0]]);
+        idx_l = _mm256_cvtepu8_epi32(_mm_loadl_epi64((const __m128i *)(qs+8)));
+        idx_h = _mm256_and_si256(_mm256_sllv_epi32(_mm256_set1_epi32(qh[1]), idx_shift), idx_mask);
+        idx.vec = _mm256_or_si256(idx_h, idx_l);
+        values[1] = _mm256_set_epi32(iq3s_grid[idx.val[7]], iq3s_grid[idx.val[6]], iq3s_grid[idx.val[5]], iq3s_grid[idx.val[4]],
+                                     iq3s_grid[idx.val[3]], iq3s_grid[idx.val[2]], iq3s_grid[idx.val[1]], iq3s_grid[idx.val[0]]);
+    }
+    const __m256i idx_mask = _mm256_set1_epi32(256);
+    const __m256i idx_shift = _mm256_set_epi32(1, 2, 3, 4, 5, 6, 7, 8);
+};
+#endif
+
+struct DequantizerIQ3S final : public BaseDequantizer<block_iq3_s> {
+    DequantizerIQ3S(const void * vx, size_t bx) : BaseDequantizer(vx, bx) {}
+
+    constexpr static int num_blocks = 8;
+
+    inline __m128i make_scales(int i, float& dd) const {
+        dd = GGML_FP16_TO_FP32(x[i].d);
+        uint32_t aux32[2];
+        std::memcpy(aux32, x[i].scales, 4);
+        aux32[1] = (aux32[0] >> 4) & 0x0f0f0f0f;
+        aux32[0] &= 0x0f0f0f0f;
+        auto scales8 = _mm_shuffle_epi8(_mm_loadl_epi64((const __m128i *)aux32), _mm_set1_epi64x(0x0703060205010400));
+        auto scales16 = _mm256_castsi256_si128(_mm256_cvtepi8_epi16(scales8));
+        return _mm_or_si128(_mm_slli_epi16(scales16, 1), _mm_set1_epi16(1));
+    }
+    inline void new_block(int i, __m256i * scales) {
+        auto scales16 = make_scales(i, d);
+        scales[0] = MM256_SET_M128I(scales16, scales16);
+    }
+    inline float new_block(int i, __m256i * scales, __m256i& mins) {
+        auto scales16 = make_scales(i, d);
+        mins = scb.shuffle(scales16);
+        scales[0] = MM256_SET_M128I(scales16, scales16);
+        return -minv*d;
+    }
+
+    inline void prepare(int i, int j) {
+        prepare_unsigned(i, j);
+        sh.sign_4_values((const uint16_t *)x[i].signs + 8*j, bits.values);
+        for (int k = 0; k < 4; ++k) bits.values[k] = _mm256_add_epi8(bits.values[k], min_value);
+    }
+    inline void prepare(int i, int j, const Q8<1>& q8, __m256i * q8_quants) {
+        prepare_unsigned(i, j);
+        for (int k = 0; k < 4; ++k) q8_quants[k] = q8.load_quants(0, i, 4*j+k);
+        sh.sign_4_values((const uint16_t *)x[i].signs + 8*j, q8_quants);
+    }
+
+    inline void prepare_unsigned(int i, int j) {
+        auto qs = x[i].qs + 32*j;
+        auto qh = x[i].qh +  4*j;
+        helper.make2(qs+ 0, qh+0, bits.values+0);
+        helper.make2(qs+16, qh+2, bits.values+2);
+    }
+
+    constexpr static int minv = 16;
+
+    SimpleBits bits;
+    SignHelper sh;
+    Scales8KBase scb;
+    IndexHelperIQ3S helper;
+    const __m256i min_value = _mm256_set1_epi8(minv);
+
+};
+
+template <typename Bits>
+inline void multiply_add_1(int j, const Bits& bits, const __m256i * scales, const __m256i * q8, __m256i * sumi) {
+    if (j == 0) {
+#ifdef HAVE_FANCY_SIMD
+        auto p1 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[0], q8[0]);
+        auto p2 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[1], q8[1]);
+        auto p3 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[2], q8[2]);
+        auto p4 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[3], q8[3]);
+        sumi[0] = _mm256_dpwssd_epi32(_mm256_setzero_si256(), scales[0], _mm256_packs_epi32(p1, p2));
+        sumi[1] = _mm256_dpwssd_epi32(_mm256_setzero_si256(), scales[1], _mm256_packs_epi32(p3, p4));
+#else
+        const __m256i p1 = _mm256_madd_epi16(scales[0], _mm256_maddubs_epi16(bits.values[0], q8[0]));
+        const __m256i p2 = _mm256_madd_epi16(scales[1], _mm256_maddubs_epi16(bits.values[1], q8[1]));
+        const __m256i p3 = _mm256_madd_epi16(scales[2], _mm256_maddubs_epi16(bits.values[2], q8[2]));
+        const __m256i p4 = _mm256_madd_epi16(scales[3], _mm256_maddubs_epi16(bits.values[3], q8[3]));
+        sumi[0] = _mm256_add_epi32(p1, p3);
+        sumi[1] = _mm256_add_epi32(p2, p4);
+#endif
+    } else {
+#ifdef HAVE_FANCY_SIMD
+        auto p1 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[0], q8[0]);
+        auto p2 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[1], q8[1]);
+        auto p3 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[2], q8[2]);
+        auto p4 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[3], q8[3]);
+        sumi[0] = _mm256_dpwssd_epi32(sumi[0], scales[0], _mm256_packs_epi32(p1, p2));
+        sumi[1] = _mm256_dpwssd_epi32(sumi[1], scales[1], _mm256_packs_epi32(p3, p4));
+#else
+        const __m256i p1 = _mm256_madd_epi16(scales[0], _mm256_maddubs_epi16(bits.values[0], q8[0]));
+        const __m256i p2 = _mm256_madd_epi16(scales[1], _mm256_maddubs_epi16(bits.values[1], q8[1]));
+        const __m256i p3 = _mm256_madd_epi16(scales[2], _mm256_maddubs_epi16(bits.values[2], q8[2]));
+        const __m256i p4 = _mm256_madd_epi16(scales[3], _mm256_maddubs_epi16(bits.values[3], q8[3]));
+        sumi[0] = _mm256_add_epi32(sumi[0], _mm256_add_epi32(p1, p3));
+        sumi[1] = _mm256_add_epi32(sumi[1], _mm256_add_epi32(p2, p4));
+#endif
+    }
+}
+
+template <typename Dequantizer>
+static void mul_mat_qX_K_q8_K_IQ_1(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
+    const int nb = n / QK_K;
+    Q8<1> q8(info);
+    Dequantizer deq(vx, bx);
+    __m256i scales[2];
+    __m256i q8_quants[4];
+    for (int ix = 0; ix < nrc_x; ++ix) {
+
+        __m256 accd = _mm256_setzero_ps();
+        deq.new_row(ix);
+
+        for (int i = 0; i < nb; ++i) {
+
+            __m256i sumi[2], all_scales[Dequantizer::num_blocks/8];
+            deq.new_block(i, all_scales);
+
+            for (int j = 0; j < QK_K/128; ++j) {
+                deq.prepare(i, j, q8, q8_quants);
+                if constexpr (Dequantizer::num_blocks == 8) {
+                    set_scales_8_iq(j, all_scales[0], scales);
+                } else {
+                    set_scales_16_iq(all_scales[j], scales);
+                }
+                multiply_add_1(j, deq.bits, scales, q8_quants, sumi);
+            }
+            accd = _mm256_fmadd_ps(_mm256_set1_ps(deq.d*q8.scale(0, i)), _mm256_cvtepi32_ps(_mm256_add_epi32(sumi[0], sumi[1])), accd);
+        }
+
+        info.store(ix, 0, hsum_float_8(accd));
+    }
+}
+
+// So, if I uncomment this function and the call to it in mul_mat_qX_K_q8_K_IQ_N() below,
+// PP performance improves by ~2-3% (when we have __AVX512VNNI__ and __AVX512VL__).
+// But TG performance for iq3_xs drops by 35%. Seriously? I mean, c'mon,
+// what does the compilation of mul_mat_qX_K_q8_K_IQ_1 (which gets invoked during TG)
+// have to do with the compilation of mul_mat_qX_K_q8_K_IQ_N (invoked during PP)?
+//template <typename Q8, typename Bits>
+//inline void multiply_add_iq(const Bits& bits, const __m256i * scales, int j, int i, const Q8& q8, __m256i * sumi) {
+//#if defined(__AVX512VNNI__) && defined(__AVX512VL__)
+//    for (int iy = 0; iy < Q8::nrc_y; ++iy) {
+//        sumi[iy] = _mm256_dpwssd_epi32(sumi[iy], scales[0], _mm256_maddubs_epi16(bits.values[0], q8.load_quants(iy, i, 4*j+0)));
+//        sumi[iy] = _mm256_dpwssd_epi32(sumi[iy], scales[1], _mm256_maddubs_epi16(bits.values[1], q8.load_quants(iy, i, 4*j+1)));
+//        sumi[iy] = _mm256_dpwssd_epi32(sumi[iy], scales[2], _mm256_maddubs_epi16(bits.values[2], q8.load_quants(iy, i, 4*j+2)));
+//        sumi[iy] = _mm256_dpwssd_epi32(sumi[iy], scales[3], _mm256_maddubs_epi16(bits.values[3], q8.load_quants(iy, i, 4*j+3)));
+//    }
+//#else
+//    for (int iy = 0; iy < Q8::nrc_y; ++iy) {
+//        const __m256i p1 = _mm256_madd_epi16(scales[0], _mm256_maddubs_epi16(bits.values[0], q8.load_quants(iy, i, 4*j+0)));
+//        const __m256i p2 = _mm256_madd_epi16(scales[1], _mm256_maddubs_epi16(bits.values[1], q8.load_quants(iy, i, 4*j+1)));
+//        const __m256i p3 = _mm256_madd_epi16(scales[2], _mm256_maddubs_epi16(bits.values[2], q8.load_quants(iy, i, 4*j+2)));
+//        const __m256i p4 = _mm256_madd_epi16(scales[3], _mm256_maddubs_epi16(bits.values[3], q8.load_quants(iy, i, 4*j+3)));
+//        sumi[iy] = _mm256_add_epi32(sumi[iy], _mm256_add_epi32(p1, p3));
+//        sumi[iy] = _mm256_add_epi32(sumi[iy], _mm256_add_epi32(p2, p4));
+//    }
+//#endif
+//}
+
+template <typename Dequantizer, int nrc_y>
+static void mul_mat_qX_K_q8_K_IQ_N(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
+    const int nb = n / QK_K;
+    Q8<nrc_y> q8(info);
+    Dequantizer deq(vx, bx);
+    __m256i scales[4];
+    __m256  accd[nrc_y];
+
+    for (int ix = 0; ix < nrc_x; ++ix) {
+
+        for (int iy = 0; iy < nrc_y; ++iy) accd[iy] = _mm256_setzero_ps();
+
+        deq.new_row(ix);
+
+        for (int i = 0; i < nb; ++i) {
+
+            __m256i sumi[nrc_y], all_scales[Dequantizer::num_blocks/8];
+            //for (int iy = 0; iy < nrc_y; ++iy) sumi[iy] = _mm256_setzero_si256();
+            __m256i mins;
+            float dmin = deq.new_block(i, all_scales, mins);
+            for (int iy = 0; iy < nrc_y; ++iy) {
+                auto bsums = q8.load_bsums(iy, i);
+                auto prod  = _mm256_madd_epi16(mins, bsums);
+                accd[iy] = _mm256_fmadd_ps(_mm256_set1_ps(dmin*q8.scale(iy, i)), _mm256_cvtepi32_ps(prod), accd[iy]);
+            }
+
+            for (int j = 0; j < QK_K/128; ++j) {
+                deq.prepare(i, j);
+                if constexpr (Dequantizer::num_blocks == 8) {
+                    set_scales_8(all_scales[0], j, scales);
+                } else {
+                    set_scales_16(all_scales[j], scales);
+                }
+                //multiply_add_iq(deq.bits, scales, j, i, q8, sumi);
+                multiply_add(deq.bits, scales, j, i, q8, sumi);
+            }
+            for (int iy = 0; iy < nrc_y; ++iy) {
+                const __m256 vd = _mm256_set1_ps(deq.d*q8.scale(iy, i));
+                accd[iy] = _mm256_fmadd_ps(vd, _mm256_cvtepi32_ps(sumi[iy]), accd[iy]);
+            }
+        }
+
+        for (int iy = 0; iy < nrc_y; ++iy) {
+            info.store(ix, iy, hsum_float_8(accd[iy]));
+        }
+    }
+}
+
+template <typename Dequantizer, int nrc_y>
+static void mul_mat_qX_K_q8_K_IQ(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
+    assert(n % QK_K == 0);
+#ifdef HAVE_FANCY_SIMD
+    if constexpr (nrc_y == 1) {
+        mul_mat_qX_K_q8_K_IQ_1<Dequantizer>(n, vx, bx, info, nrc_x);
+    } else {
+        mul_mat_qX_K_q8_K_IQ_N<Dequantizer, nrc_y>(n, vx, bx, info, nrc_x);
+    }
+#else
+    mul_mat_qX_K_q8_K_IQ_N<Dequantizer, nrc_y>(n, vx, bx, info, nrc_x);
+#endif
+}
+
+template <typename Dequantizer> void set_functions(std::array<mul_mat_t, IQK_MAX_NY>& funcs) {
+    funcs[0] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 1>;
+    funcs[1] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 2>;
+    funcs[2] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 3>;
+    funcs[3] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 4>;
+    funcs[4] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 5>;
+    funcs[5] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 6>;
+    funcs[6] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 7>;
+    funcs[7] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 8>;
+}
+
+} // namespace
+
+bool iqk_set_kernels_iquants(int ne00, int typeA, int typeB, std::array<mul_mat_t, IQK_MAX_NY>& kernels) {
+
+    if (ne00%QK_K != 0 || ggml_type(typeB) != GGML_TYPE_Q8_K) {
+        return false;
+    }
+
+    switch (typeA) {
+        case GGML_TYPE_IQ3_S:
+            set_functions<DequantizerIQ3S>(kernels);
+            break;
+        case GGML_TYPE_IQ3_XXS:
+            set_functions<DequantizerIQ3XXS>(kernels);
+            break;
+        case GGML_TYPE_IQ2_S:
+            set_functions<DequantizerIQ2S>(kernels);
+            break;
+        case GGML_TYPE_IQ2_XS:
+            set_functions<DequantizerIQ2XS>(kernels);
+            break;
+        case GGML_TYPE_IQ2_XXS:
+            set_functions<DequantizerIQ2XXS>(kernels);
+            break;
+        default:
+            return false;
+    }
+
+    return true;
+
+}
+
+#endif
--- a/ggml/src/iqk/iqk_gemm_iquants.h
+++ b/ggml/src/iqk/iqk_gemm_iquants.h
@@ -0,0 +1,11 @@
+#pragma once
+
+#include "iqk_common.h"
+
+#ifdef IQK_IMPLEMENT
+
+#include <array>
+
+bool iqk_set_kernels_iquants(int ne00, int typeA, int typeB, std::array<mul_mat_t, IQK_MAX_NY>& kernels);
+
+#endif
--- a/ggml/src/iqk/iqk_gemm_kquants.cpp
+++ b/ggml/src/iqk/iqk_gemm_kquants.cpp
@@ -131,6 +131,21 @@ inline void set_scales_16(const __m256i& all_scales, __m256i * scales) {
    scales[3] = _mm256_shuffle_epi8(all_scales, get_scale_shuffle_16(3));
 }

+struct ScaleIQ4XS {
+    inline __m128i make_scales(const uint32_t scales_l, const uint16_t scales_h) {
+        uint32_t tmp32 = scales_h | (scales_h << 14);
+        const __m128i sh = _mm_slli_epi16(_mm_and_si128(_mm_srlv_epi32(_mm_set1_epi32(tmp32), hshift), hmask), 4);
+        const __m128i sl = _mm_and_si128(_mm_srlv_epi32(_mm_set1_epi32(scales_l), lshift), lmask);
+        return _mm_add_epi16(_mm_or_si128(sh, _mm_cvtepi8_epi16(_mm_shuffle_epi8(sl, lshuffle))), m32);
+    }
+    const __m128i hshift = _mm_set_epi32(12, 8, 4, 0);
+    const __m128i lshift = _mm_set_epi32(4, 0, 4, 0);
+    const __m128i hmask  = _mm_set1_epi16(0x03);
+    const __m128i lmask  = _mm_set1_epi8(0xf);
+    const __m128i lshuffle = _mm_set_epi32(0x07030602, 0x05010400, 0x07030602, 0x05010400);
+    const __m128i m32 = _mm_set1_epi16(-32);
+};
+
 #ifdef HAVE_FANCY_SIMD
 //====================================== Zen4 ==================================================

@@ -326,6 +341,53 @@ struct DequantizerQ6K final : public BaseDequantizer<block_q6_K> {

 };

+__m512i inline load_iq4nl_values_512() {
+    auto val256 = load_iq4nl_values_256();
+    return _mm512_inserti32x8(_mm512_castsi256_si512(val256), val256, 1);
+}
+
+struct DequantizerIQ4XS final : public BaseDequantizer<block_iq4_xs> {
+    DequantizerIQ4XS(const void * vx, size_t bx) : BaseDequantizer(vx, bx), values(load_iq4nl_values_512()) {}
+    template <typename Q8>
+    inline void new_block(int i, const Q8& q8, __m256 * accd, __m512i * scales) {
+        d = GGML_FP16_TO_FP32(x[i].d);
+        prepare(x[i].qs);
+        auto scales128 = siq4.make_scales(*(const uint32_t *)x[i].scales_l, x[i].scales_h);
+        s8k.accum_mins(scales128, q8, i, -128.f*d, accd);
+        auto scales256 = MM256_SET_M128I(scales128, scales128);
+        auto all_scales = _mm512_inserti32x8(_mm512_castsi256_si512(scales256), scales256, 1);
+        scales[0] = _mm512_shuffle_epi8(all_scales, shuffles[0]);
+        scales[1] = _mm512_shuffle_epi8(all_scales, shuffles[1]);
+        scales[2] = _mm512_shuffle_epi8(all_scales, shuffles[2]);
+        scales[3] = _mm512_shuffle_epi8(all_scales, shuffles[3]);
+    }
+    inline void prepare(const uint8_t * q4) {
+        bits.prepare64(q4);
+        // We now have in bits.valuse[0]: 0...15, 32...47, 64...79, 96...111
+        //                bits.valuse[1]: 16..31, 48...63, 80...95, 112..127
+        //                etc.
+        auto tmp = _mm512_permutex2var_epi64(bits.values[0], permute1, bits.values[1]);
+        bits.values[1] = _mm512_shuffle_epi8(values, _mm512_permutex2var_epi64(bits.values[0], permute2, bits.values[1]));
+        bits.values[0] = _mm512_shuffle_epi8(values, tmp);
+        tmp = _mm512_permutex2var_epi64(bits.values[2], permute1, bits.values[3]);
+        bits.values[3] = _mm512_shuffle_epi8(values, _mm512_permutex2var_epi64(bits.values[2], permute2, bits.values[3]));
+        bits.values[2] = _mm512_shuffle_epi8(values, tmp);
+    }
+
+    Q4Bits bits;
+    Scales8KBase s8k;
+    ScaleIQ4XS siq4;
+    const __m512i values;
+    const __m512i permute1 = _mm512_set_epi64(11, 10, 3, 2,  9,  8, 1, 0);
+    const __m512i permute2 = _mm512_set_epi64(15, 14, 7, 6, 13, 12, 5, 4);
+    const __m512i shuffles[4] = {
+        _mm512_inserti32x8(_mm512_set1_epi16(0x0100), _mm256_set1_epi16(0x0302), 1),
+        _mm512_inserti32x8(_mm512_set1_epi16(0x0504), _mm256_set1_epi16(0x0706), 1),
+        _mm512_inserti32x8(_mm512_set1_epi16(0x0908), _mm256_set1_epi16(0x0b0a), 1),
+        _mm512_inserti32x8(_mm512_set1_epi16(0x0d0c), _mm256_set1_epi16(0x0f0e), 1),
+    };
+};
+
 template <typename Dequantizer>
 static void mul_mat_qX_K_q8_K_AVX512_1(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
    assert(n % QK_K == 0);
@@ -415,6 +477,50 @@ static void mul_mat_qX_K_q8_K_AVX512(int n, const void * vx, size_t bx, const Da
    }
 }

+template <typename Dequantizer, int nrc_y>
+static void mul_mat_iqX_k_q8_K_AVX512(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
+    assert(n % QK_K == 0);
+    const int nb = n / QK_K;
+
+    Q8<nrc_y> q8(info);
+
+    Dequantizer deq(vx, bx);
+
+    __m256  accm[nrc_y];
+    __m512  accd[nrc_y];
+    __m512i scales[4];
+
+    for (int ix = 0; ix < nrc_x; ++ix) {
+
+        for (int iy = 0; iy < nrc_y; ++iy) accd[iy] = _mm512_setzero_ps();
+        for (int iy = 0; iy < nrc_y; ++iy) accm[iy] = _mm256_setzero_ps();
+
+        deq.new_row(ix);
+
+        for (int i = 0; i < nb; ++i) {
+
+            deq.new_block(i, q8, accm, scales);
+
+            for (int iy = 0; iy < nrc_y; ++iy) {
+                const __m512i p1 = _mm512_maddubs_epi16(deq.bits.values[0], q8.load_quants64(iy, i, 0));
+                const __m512i p2 = _mm512_maddubs_epi16(deq.bits.values[1], q8.load_quants64(iy, i, 1));
+                const __m512i p3 = _mm512_maddubs_epi16(deq.bits.values[2], q8.load_quants64(iy, i, 2));
+                const __m512i p4 = _mm512_maddubs_epi16(deq.bits.values[3], q8.load_quants64(iy, i, 3));
+                auto sumi = _mm512_dpwssd_epi32(_mm512_dpwssd_epi32(_mm512_dpwssd_epi32(_mm512_dpwssd_epi32(_mm512_setzero_si512(),
+                                    p1, scales[0]), p2, scales[1]), p3, scales[2]), p4, scales[3]);
+                accd[iy] = _mm512_fmadd_ps(_mm512_set1_ps(deq.d*q8.scale(iy, i)), _mm512_cvtepi32_ps(sumi), accd[iy]);
+            }
+
+        }
+
+        for (int iy = 0; iy < nrc_y; ++iy) {
+            auto sum256 = _mm256_add_ps(_mm512_castps512_ps256(accd[iy]), _mm512_extractf32x8_ps(accd[iy], 1));
+            info.store(ix, iy, hsum_float_8(_mm256_add_ps(accm[iy], sum256)));
+        }
+
+    }
+}
+
 #else
 //====================================== AVX2 ==================================================

@@ -598,6 +704,29 @@ struct DequantizerQ6K final : public BaseDequantizer<block_q6_K> {
    const __m256i mh = _mm256_set1_epi8(0x30);
 };

+struct DequantizerIQ4XS final : public BaseDequantizer<block_iq4_xs> {
+    DequantizerIQ4XS(const void * vx, size_t bx) : BaseDequantizer(vx, bx), values(load_iq4nl_values_256()) {}
+    template <typename Q8>
+    inline __m256i new_block(int i, const Q8& q8, __m256 * accd) {
+        d = GGML_FP16_TO_FP32(x[i].d);
+        auto scales128 = siq4.make_scales(*(const uint32_t *)x[i].scales_l, x[i].scales_h);
+        s8k.accum_mins(scales128, q8, i, -128.f*d, accd);
+        return MM256_SET_M128I(scales128, scales128);
+    }
+    inline void prepare(int i, int j) {
+        bits.prepare16(x[i].qs, j);
+        bits.values[0] = _mm256_shuffle_epi8(values, bits.values[0]);
+        bits.values[1] = _mm256_shuffle_epi8(values, bits.values[1]);
+        bits.values[2] = _mm256_shuffle_epi8(values, bits.values[2]);
+        bits.values[3] = _mm256_shuffle_epi8(values, bits.values[3]);
+    }
+
+    Q4Bits bits;
+    Scales8K s8k;
+    ScaleIQ4XS siq4;
+    const __m256i values;
+};
+
 template <typename Dequantizer, int nrc_y>
 static void mul_mat_qX_K_q8_K_T(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
    assert(n % QK_K == 0);
@@ -695,14 +824,25 @@ static void mul_mat_qY_K_q8_K_T(int n, const void * vx, size_t bx, const DataInf

 template <typename Dequantizer> void set_functions(std::array<mul_mat_t, IQK_MAX_NY>& funcs) {
 #ifdef HAVE_FANCY_SIMD
-    funcs[0] = mul_mat_qX_K_q8_K_AVX512_1<Dequantizer>;
-    funcs[1] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 2>;
-    funcs[2] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 3>;
-    funcs[3] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 4>;
-    funcs[4] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 5>;
-    funcs[5] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 6>;
-    funcs[6] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 7>;
-    funcs[7] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 8>;
+    if constexpr (std::is_same_v<Dequantizer, DequantizerIQ4XS>) {
+        funcs[0] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 1>;
+        funcs[1] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 2>;
+        funcs[2] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 3>;
+        funcs[3] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 4>;
+        funcs[4] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 5>;
+        funcs[5] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 6>;
+        funcs[6] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 7>;
+        funcs[7] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 8>;
+    } else {
+        funcs[0] = mul_mat_qX_K_q8_K_AVX512_1<Dequantizer>;
+        funcs[1] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 2>;
+        funcs[2] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 3>;
+        funcs[3] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 4>;
+        funcs[4] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 5>;
+        funcs[5] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 6>;
+        funcs[6] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 7>;
+        funcs[7] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 8>;
+    }
 #else
    if constexpr (std::is_same_v<Dequantizer, DequantizerQ2K> ||
                  std::is_same_v<Dequantizer, DequantizerQ3K> ||
@@ -752,6 +892,9 @@ bool iqk_set_kernels_kquants(int ne00, int typeA, int typeB, std::array<mul_mat_
        case GGML_TYPE_Q6_K:
            set_functions<DequantizerQ6K>(kernels);
            break;
+        case GGML_TYPE_IQ4_XS:
+            set_functions<DequantizerIQ4XS>(kernels);
+            break;
        default:
            return false;
    }
--- a/ggml/src/iqk/iqk_mul_mat.cpp
+++ b/ggml/src/iqk/iqk_mul_mat.cpp
@@ -22,6 +22,7 @@
 #include "iqk_flash_impl.h"
 #include "iqk_gemm_floats.h"
 #include "iqk_gemm_kquants.h"
+#include "iqk_gemm_iquants.h"
 #include "iqk_gemm_legacy_quants.h"

 #define GGML_COMMON_IMPL_C
@@ -1554,49 +1555,6 @@ __m512i inline load_iq4nl_values_512() {
    return _mm512_inserti32x8(_mm512_castsi256_si512(val256), val256, 1);
 }

-
-struct DequantizerIQ4XS final : public BaseDequantizer<block_iq4_xs> {
-    DequantizerIQ4XS(const void * vx, size_t bx) : BaseDequantizer(vx, bx), values(load_iq4nl_values_512()) {}
-    template <typename Q8>
-    inline void new_block(int i, const Q8& q8, __m256 * accd, __m512i * scales) {
-        d = GGML_FP16_TO_FP32(x[i].d);
-        prepare(x[i].qs);
-        auto scales128 = siq4.make_scales(*(const uint32_t *)x[i].scales_l, x[i].scales_h);
-        s8k.accum_mins(scales128, q8, i, -128.f*d, accd);
-        auto scales256 = MM256_SET_M128I(scales128, scales128);
-        auto all_scales = _mm512_inserti32x8(_mm512_castsi256_si512(scales256), scales256, 1);
-        scales[0] = _mm512_shuffle_epi8(all_scales, shuffles[0]);
-        scales[1] = _mm512_shuffle_epi8(all_scales, shuffles[1]);
-        scales[2] = _mm512_shuffle_epi8(all_scales, shuffles[2]);
-        scales[3] = _mm512_shuffle_epi8(all_scales, shuffles[3]);
-    }
-    inline void prepare(const uint8_t * q4) {
-        bits.prepare64(q4);
-        // We now have in bits.valuse[0]: 0...15, 32...47, 64...79, 96...111
-        //                bits.valuse[1]: 16..31, 48...63, 80...95, 112..127
-        //                etc.
-        auto tmp = _mm512_permutex2var_epi64(bits.values[0], permute1, bits.values[1]);
-        bits.values[1] = _mm512_shuffle_epi8(values, _mm512_permutex2var_epi64(bits.values[0], permute2, bits.values[1]));
-        bits.values[0] = _mm512_shuffle_epi8(values, tmp);
-        tmp = _mm512_permutex2var_epi64(bits.values[2], permute1, bits.values[3]);
-        bits.values[3] = _mm512_shuffle_epi8(values, _mm512_permutex2var_epi64(bits.values[2], permute2, bits.values[3]));
-        bits.values[2] = _mm512_shuffle_epi8(values, tmp);
-    }
-
-    Q4Bits bits;
-    Scales8KBase s8k;
-    ScaleIQ4XS siq4;
-    const __m512i values;
-    const __m512i permute1 = _mm512_set_epi64(11, 10, 3, 2,  9,  8, 1, 0);
-    const __m512i permute2 = _mm512_set_epi64(15, 14, 7, 6, 13, 12, 5, 4);
-    const __m512i shuffles[4] = {
-        _mm512_inserti32x8(_mm512_set1_epi16(0x0100), _mm256_set1_epi16(0x0302), 1),
-        _mm512_inserti32x8(_mm512_set1_epi16(0x0504), _mm256_set1_epi16(0x0706), 1),
-        _mm512_inserti32x8(_mm512_set1_epi16(0x0908), _mm256_set1_epi16(0x0b0a), 1),
-        _mm512_inserti32x8(_mm512_set1_epi16(0x0d0c), _mm256_set1_epi16(0x0f0e), 1),
-    };
-};
-
 struct HighBit5 {
    inline void apply(const uint8_t * h, Q4Bits& bits) {
        auto hbits256 = _mm256_loadu_si256((const __m256i *)h);
@@ -2480,29 +2438,6 @@ struct HighBit3 {
    __m256i hbits;
 };

-struct DequantizerIQ4XS final : public BaseDequantizer<block_iq4_xs> {
-    DequantizerIQ4XS(const void * vx, size_t bx) : BaseDequantizer(vx, bx), values(load_iq4nl_values_256()) {}
-    template <typename Q8>
-    inline __m256i new_block(int i, const Q8& q8, __m256 * accd) {
-        d = GGML_FP16_TO_FP32(x[i].d);
-        auto scales128 = siq4.make_scales(*(const uint32_t *)x[i].scales_l, x[i].scales_h);
-        s8k.accum_mins(scales128, q8, i, -128.f*d, accd);
-        return MM256_SET_M128I(scales128, scales128);
-    }
-    inline void prepare(int i, int j) {
-        bits.prepare16(x[i].qs, j);
-        bits.values[0] = _mm256_shuffle_epi8(values, bits.values[0]);
-        bits.values[1] = _mm256_shuffle_epi8(values, bits.values[1]);
-        bits.values[2] = _mm256_shuffle_epi8(values, bits.values[2]);
-        bits.values[3] = _mm256_shuffle_epi8(values, bits.values[3]);
-    }
-
-    Q4Bits bits;
-    Scales8K s8k;
-    ScaleIQ4XS siq4;
-    const __m256i values;
-};
-
 struct IQXKScales {
    IQXKScales(int8_t shift, int8_t min_val) : min(_mm256_set1_epi16(min_val)), eshift(_mm_set1_epi8(shift)) {}
    template <typename Q8>
@@ -7223,173 +7158,6 @@ static void mul_mat_iq5_ks_r4_q8_k(int n, const void * vx, size_t bx, const Data
    }
 }

-template <typename Bits>
-inline void multiply_add_1(int j, const Bits& bits, const __m256i * scales, const __m256i * q8, __m256i * sumi) {
-    if (j == 0) {
-#ifdef HAVE_FANCY_SIMD
-        auto p1 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[0], q8[0]);
-        auto p2 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[1], q8[1]);
-        auto p3 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[2], q8[2]);
-        auto p4 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[3], q8[3]);
-        sumi[0] = _mm256_dpwssd_epi32(_mm256_setzero_si256(), scales[0], _mm256_packs_epi32(p1, p2));
-        sumi[1] = _mm256_dpwssd_epi32(_mm256_setzero_si256(), scales[1], _mm256_packs_epi32(p3, p4));
-#else
-        const __m256i p1 = _mm256_madd_epi16(scales[0], _mm256_maddubs_epi16(bits.values[0], q8[0]));
-        const __m256i p2 = _mm256_madd_epi16(scales[1], _mm256_maddubs_epi16(bits.values[1], q8[1]));
-        const __m256i p3 = _mm256_madd_epi16(scales[2], _mm256_maddubs_epi16(bits.values[2], q8[2]));
-        const __m256i p4 = _mm256_madd_epi16(scales[3], _mm256_maddubs_epi16(bits.values[3], q8[3]));
-        sumi[0] = _mm256_add_epi32(p1, p3);
-        sumi[1] = _mm256_add_epi32(p2, p4);
-#endif
-    } else {
-#ifdef HAVE_FANCY_SIMD
-        auto p1 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[0], q8[0]);
-        auto p2 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[1], q8[1]);
-        auto p3 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[2], q8[2]);
-        auto p4 = _mm256_dpbusd_epi32(_mm256_setzero_si256(), bits.values[3], q8[3]);
-        sumi[0] = _mm256_dpwssd_epi32(sumi[0], scales[0], _mm256_packs_epi32(p1, p2));
-        sumi[1] = _mm256_dpwssd_epi32(sumi[1], scales[1], _mm256_packs_epi32(p3, p4));
-#else
-        const __m256i p1 = _mm256_madd_epi16(scales[0], _mm256_maddubs_epi16(bits.values[0], q8[0]));
-        const __m256i p2 = _mm256_madd_epi16(scales[1], _mm256_maddubs_epi16(bits.values[1], q8[1]));
-        const __m256i p3 = _mm256_madd_epi16(scales[2], _mm256_maddubs_epi16(bits.values[2], q8[2]));
-        const __m256i p4 = _mm256_madd_epi16(scales[3], _mm256_maddubs_epi16(bits.values[3], q8[3]));
-        sumi[0] = _mm256_add_epi32(sumi[0], _mm256_add_epi32(p1, p3));
-        sumi[1] = _mm256_add_epi32(sumi[1], _mm256_add_epi32(p2, p4));
-#endif
-    }
-}
-
-// TODO: find the bug that causes this to be called without HAVE_FANCY_SIMD, which triggers
-//       writing 4 vvalues into scales, which is of size 2.
-inline void set_scales_8_iq(int j, const __m256i& all_scales, __m256i * scales) {
-//#ifdef HAVE_FANCY_SIMD
-    auto shuffle = j == 0 ? _mm256_set_epi64x(0x0302030203020302, 0x0100010001000100, 0x0302030203020302, 0x0100010001000100)
-                          : _mm256_set_epi64x(0x0b0a0b0a0b0a0b0a, 0x0908090809080908, 0x0b0a0b0a0b0a0b0a, 0x0908090809080908);
-    scales[0] = _mm256_shuffle_epi8(all_scales, shuffle);
-    scales[1] = _mm256_shuffle_epi8(all_scales, _mm256_add_epi8(shuffle, _mm256_set1_epi8(4)));
-//#else
-//    set_scales_8(all_scales, j, scales);
-//#endif
-}
-
-inline void set_scales_16_iq(const __m256i& all_scales, __m256i * scales) {
-#ifdef HAVE_FANCY_SIMD
-    auto shuffle = _mm256_set_epi64x(0x0706070607060706, 0x0302030203020302, 0x0504050405040504, 0x0100010001000100);
-    scales[0] = _mm256_shuffle_epi8(all_scales, shuffle);
-    scales[1] = _mm256_shuffle_epi8(all_scales, _mm256_add_epi8(shuffle, _mm256_set1_epi8(8)));
-#else
-    set_scales_16(all_scales, scales);
-#endif
-}
-
-template <typename Dequantizer>
-static void mul_mat_qX_K_q8_K_IQ_1(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
-    const int nb = n / QK_K;
-    Q8<1> q8(info);
-    Dequantizer deq(vx, bx);
-    __m256i scales[2];
-    __m256i q8_quants[4];
-    for (int ix = 0; ix < nrc_x; ++ix) {
-
-        __m256 accd = _mm256_setzero_ps();
-        deq.new_row(ix);
-
-        for (int i = 0; i < nb; ++i) {
-
-            __m256i sumi[2], all_scales[Dequantizer::num_blocks/8];
-            deq.new_block(i, all_scales);
-
-            for (int j = 0; j < QK_K/128; ++j) {
-                deq.prepare(i, j, q8, q8_quants);
-                if constexpr (Dequantizer::num_blocks == 8) {
-                    set_scales_8_iq(j, all_scales[0], scales);
-                } else {
-                    set_scales_16_iq(all_scales[j], scales);
-                }
-                multiply_add_1(j, deq.bits, scales, q8_quants, sumi);
-            }
-            accd = _mm256_fmadd_ps(_mm256_set1_ps(deq.d*q8.scale(0, i)), _mm256_cvtepi32_ps(_mm256_add_epi32(sumi[0], sumi[1])), accd);
-        }
-
-        info.store(ix, 0, hsum_float_8(accd));
-    }
-}
-
-// So, if I uncomment this function and the call to it in mul_mat_qX_K_q8_K_IQ_N() below,
-// PP performance improves by ~2-3% (when we have __AVX512VNNI__ and __AVX512VL__).
-// But TG performance for iq3_xs drops by 35%. Seriously? I mean, c'mon,
-// what does the compilation of mul_mat_qX_K_q8_K_IQ_1 (which gets invoked during TG)
-// have to do with the compilation of mul_mat_qX_K_q8_K_IQ_N (invoked during PP)?
-//template <typename Q8, typename Bits>
-//inline void multiply_add_iq(const Bits& bits, const __m256i * scales, int j, int i, const Q8& q8, __m256i * sumi) {
-//#if defined(__AVX512VNNI__) && defined(__AVX512VL__)
-//    for (int iy = 0; iy < Q8::nrc_y; ++iy) {
-//        sumi[iy] = _mm256_dpwssd_epi32(sumi[iy], scales[0], _mm256_maddubs_epi16(bits.values[0], q8.load_quants(iy, i, 4*j+0)));
-//        sumi[iy] = _mm256_dpwssd_epi32(sumi[iy], scales[1], _mm256_maddubs_epi16(bits.values[1], q8.load_quants(iy, i, 4*j+1)));
-//        sumi[iy] = _mm256_dpwssd_epi32(sumi[iy], scales[2], _mm256_maddubs_epi16(bits.values[2], q8.load_quants(iy, i, 4*j+2)));
-//        sumi[iy] = _mm256_dpwssd_epi32(sumi[iy], scales[3], _mm256_maddubs_epi16(bits.values[3], q8.load_quants(iy, i, 4*j+3)));
-//    }
-//#else
-//    for (int iy = 0; iy < Q8::nrc_y; ++iy) {
-//        const __m256i p1 = _mm256_madd_epi16(scales[0], _mm256_maddubs_epi16(bits.values[0], q8.load_quants(iy, i, 4*j+0)));
-//        const __m256i p2 = _mm256_madd_epi16(scales[1], _mm256_maddubs_epi16(bits.values[1], q8.load_quants(iy, i, 4*j+1)));
-//        const __m256i p3 = _mm256_madd_epi16(scales[2], _mm256_maddubs_epi16(bits.values[2], q8.load_quants(iy, i, 4*j+2)));
-//        const __m256i p4 = _mm256_madd_epi16(scales[3], _mm256_maddubs_epi16(bits.values[3], q8.load_quants(iy, i, 4*j+3)));
-//        sumi[iy] = _mm256_add_epi32(sumi[iy], _mm256_add_epi32(p1, p3));
-//        sumi[iy] = _mm256_add_epi32(sumi[iy], _mm256_add_epi32(p2, p4));
-//    }
-//#endif
-//}
-
-template <typename Dequantizer, int nrc_y>
-static void mul_mat_qX_K_q8_K_IQ_N(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
-    const int nb = n / QK_K;
-    Q8<nrc_y> q8(info);
-    Dequantizer deq(vx, bx);
-    __m256i scales[4];
-    __m256  accd[nrc_y];
-
-    for (int ix = 0; ix < nrc_x; ++ix) {
-
-        for (int iy = 0; iy < nrc_y; ++iy) accd[iy] = _mm256_setzero_ps();
-
-        deq.new_row(ix);
-
-        for (int i = 0; i < nb; ++i) {
-
-            __m256i sumi[nrc_y], all_scales[Dequantizer::num_blocks/8];
-            //for (int iy = 0; iy < nrc_y; ++iy) sumi[iy] = _mm256_setzero_si256();
-            __m256i mins;
-            float dmin = deq.new_block(i, all_scales, mins);
-            for (int iy = 0; iy < nrc_y; ++iy) {
-                auto bsums = q8.load_bsums(iy, i);
-                auto prod  = _mm256_madd_epi16(mins, bsums);
-                accd[iy] = _mm256_fmadd_ps(_mm256_set1_ps(dmin*q8.scale(iy, i)), _mm256_cvtepi32_ps(prod), accd[iy]);
-            }
-
-            for (int j = 0; j < QK_K/128; ++j) {
-                deq.prepare(i, j);
-                if constexpr (Dequantizer::num_blocks == 8) {
-                    set_scales_8(all_scales[0], j, scales);
-                } else {
-                    set_scales_16(all_scales[j], scales);
-                }
-                //multiply_add_iq(deq.bits, scales, j, i, q8, sumi);
-                multiply_add(deq.bits, scales, j, i, q8, sumi);
-            }
-            for (int iy = 0; iy < nrc_y; ++iy) {
-                const __m256 vd = _mm256_set1_ps(deq.d*q8.scale(iy, i));
-                accd[iy] = _mm256_fmadd_ps(vd, _mm256_cvtepi32_ps(sumi[iy]), accd[iy]);
-            }
-        }
-
-        for (int iy = 0; iy < nrc_y; ++iy) {
-            info.store(ix, iy, hsum_float_8(accd[iy]));
-        }
-    }
-}
-
 template <int nrc> struct Q8_K64 {

    constexpr static int nrc_y = nrc;
@@ -7652,525 +7420,67 @@ IQK_NOINLINE void mul_mat_iq2bn_q8_K64(int n, const void * vx, size_t bx, const
    }
 }

-template <typename Dequantizer, int nrc_y>
-static void mul_mat_qX_K_q8_K_IQ(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
-    assert(n % QK_K == 0);
-#ifdef HAVE_FANCY_SIMD
-    if constexpr (nrc_y == 1) {
-        mul_mat_qX_K_q8_K_IQ_1<Dequantizer>(n, vx, bx, info, nrc_x);
-    } else {
-        mul_mat_qX_K_q8_K_IQ_N<Dequantizer, nrc_y>(n, vx, bx, info, nrc_x);
-    }
-#else
-    mul_mat_qX_K_q8_K_IQ_N<Dequantizer, nrc_y>(n, vx, bx, info, nrc_x);
-#endif
-}
-
-struct DequantizerIQ3S final : public BaseDequantizer<block_iq3_s> {
-    DequantizerIQ3S(const void * vx, size_t bx) : BaseDequantizer(vx, bx) {}
-
-    constexpr static int num_blocks = 8;
-
-    inline __m128i make_scales(int i, float& dd) const {
-        dd = GGML_FP16_TO_FP32(x[i].d);
-        uint32_t aux32[2];
-        std::memcpy(aux32, x[i].scales, 4);
-        aux32[1] = (aux32[0] >> 4) & 0x0f0f0f0f;
-        aux32[0] &= 0x0f0f0f0f;
-        auto scales8 = _mm_shuffle_epi8(_mm_loadl_epi64((const __m128i *)aux32), _mm_set1_epi64x(0x0703060205010400));
-        auto scales16 = _mm256_castsi256_si128(_mm256_cvtepi8_epi16(scales8));
-        return _mm_or_si128(_mm_slli_epi16(scales16, 1), _mm_set1_epi16(1));
-    }
-    inline void new_block(int i, __m256i * scales) {
-        auto scales16 = make_scales(i, d);
-        scales[0] = MM256_SET_M128I(scales16, scales16);
-    }
-    inline float new_block(int i, __m256i * scales, __m256i& mins) {
-        auto scales16 = make_scales(i, d);
-        mins = scb.shuffle(scales16);
-        scales[0] = MM256_SET_M128I(scales16, scales16);
-        return -minv*d;
-    }
-
-    inline void prepare(int i, int j) {
-        prepare_unsigned(i, j);
-        sh.sign_4_values((const uint16_t *)x[i].signs + 8*j, bits.values);
-        for (int k = 0; k < 4; ++k) bits.values[k] = _mm256_add_epi8(bits.values[k], min_value);
-    }
-    inline void prepare(int i, int j, const Q8<1>& q8, __m256i * q8_quants) {
-        prepare_unsigned(i, j);
-        for (int k = 0; k < 4; ++k) q8_quants[k] = q8.load_quants(0, i, 4*j+k);
-        sh.sign_4_values((const uint16_t *)x[i].signs + 8*j, q8_quants);
-    }
-
-    inline void prepare_unsigned(int i, int j) {
-        auto qs = x[i].qs + 32*j;
-        auto qh = x[i].qh +  4*j;
-        helper.make2(qs+ 0, qh+0, bits.values+0);
-        helper.make2(qs+16, qh+2, bits.values+2);
-    }
-
-    constexpr static int minv = 16;
-
-    SimpleBits bits;
-    SignHelper sh;
-    Scales8KBase scb;
-    IndexHelperIQ3S helper;
-    const __m256i min_value = _mm256_set1_epi8(minv);
-
-};
-
-struct EvenSignHelper {
-#if defined HAVE_FANCY_SIMD && defined __AVX512VPOPCNTDQ__
-    union sbits_t {
-        __m128i vec;
-        __mmask32 mask[4];
-    };
-    IQK_ALWAYS_INLINE void sign_2_values(__m256i aux, __m256i * values) const {
-        aux = _mm256_and_si256(_mm256_srlv_epi32(aux, shifts), mask);
-        auto pcnt = _mm256_popcnt_epi32(aux);
-        sbits_t sbits;
-        sbits.vec = _mm256_cvtepi32_epi8(_mm256_or_si256(aux, _mm256_slli_epi32(_mm256_and_si256(pcnt, mone), 7)));
-        values[0] = _mm256_mask_sub_epi8(values[0], sbits.mask[0], _mm256_setzero_si256(), values[0]);
-        values[1] = _mm256_mask_sub_epi8(values[1], sbits.mask[1], _mm256_setzero_si256(), values[1]);
-        //auto sign_bits = _mm256_cvtepi32_epi8(_mm256_or_si256(aux, _mm256_slli_epi32(_mm256_and_si256(pcnt, mone), 7)));
-        //const __mmask32 * m32 = (const __mmask32 *)&sign_bits;
-        //values[0] = _mm256_mask_sub_epi8(values[0], m32[0], _mm256_setzero_si256(), values[0]);
-        //values[1] = _mm256_mask_sub_epi8(values[1], m32[1], _mm256_setzero_si256(), values[1]);
-    }
-    const __m256i shifts = _mm256_set_epi32(21, 14, 7, 0, 21, 14, 7, 0);
-    const __m256i mask   = _mm256_set1_epi32(127);
-    const __m256i mone   = _mm256_set1_epi32(1);
-#else
-    inline void sign_value(uint32_t aux32, __m256i& value) const {
-        auto signs = _mm256_set_epi64x(keven_signs[(aux32 >> 21) & 127], keven_signs[(aux32 >> 14) & 127],
-                                       keven_signs[(aux32 >>  7) & 127], keven_signs[(aux32 >>  0) & 127]);
-        value = _mm256_sign_epi8(value, signs);
-    }
-#endif
-};
-
-struct DequantizerIQ3XXS final : public BaseDequantizer<block_iq3_xxs> {
-    DequantizerIQ3XXS(const void * vx, size_t bx) : BaseDequantizer(vx, bx) {}
-
-    constexpr static int num_blocks = 8;
-
-    inline __m128i prepare_scales(int i) {
-        d = 0.25f * GGML_FP16_TO_FP32(x[i].d);
-        auto tmp = _mm256_loadu_si256((const __m256i *)(x[i].qs + QK_K/4));
-        auto scales32 = _mm256_srli_epi32(tmp, 28);
-        scales32 = _mm256_or_si256(_mm256_slli_epi32(scales32, 1), _mm256_set1_epi32(1));
-        return _mm_packs_epi32(_mm256_castsi256_si128(scales32), _mm256_extractf128_si256(scales32, 1));
-    }
-
-    inline void new_block(int i, __m256i * scales) {
-        auto scales16 = prepare_scales(i);
-        scales[0] = MM256_SET_M128I(scales16, scales16);
-    }
-    inline float new_block(int i, __m256i * scales, __m256i& mins) {
-        auto scales16 = prepare_scales(i);
-        mins = scb.shuffle(scales16);
-        scales[0] = MM256_SET_M128I(scales16, scales16);
-        return -d*minv;
-    }
-
-    inline static __m256i make_quants(const uint8_t * qs) {
-        return _mm256_set_epi32(iq3xxs_grid[qs[7]], iq3xxs_grid[qs[6]], iq3xxs_grid[qs[5]], iq3xxs_grid[qs[4]],
-                                iq3xxs_grid[qs[3]], iq3xxs_grid[qs[2]], iq3xxs_grid[qs[1]], iq3xxs_grid[qs[0]]);
-    }
-    inline static void make4_unsigned(const uint8_t * qs, __m256i * values) {
-        values[0] = make_quants(qs+ 0);
-        values[1] = make_quants(qs+ 8);
-        values[2] = make_quants(qs+16);
-        values[3] = make_quants(qs+24);
-    }
-
-    IQK_ALWAYS_INLINE void sign_2_values(const uint16_t * signs, __m256i * values) const {
-#if defined HAVE_FANCY_SIMD && defined __AVX512VPOPCNTDQ__
-        esh.sign_2_values(MM256_SET_M128I(_mm_set1_epi32(signs[2] | (signs[3] << 16)), _mm_set1_epi32(signs[0] | (signs[1] << 16))), values);
-#else
-        esh.sign_value(signs[0] | (signs[1] << 16), values[0]);
-        esh.sign_value(signs[2] | (signs[3] << 16), values[1]);
-#endif
-    }
-
-    inline void prepare(int i, int j) {
-        auto qs = x[i].qs + 32*j;
-        const uint16_t * signs = (const uint16_t *)(x[i].qs + QK_K/4) + 8*j;
-        make4_unsigned(qs, bits.values);
-        sign_2_values(signs+0, bits.values+0);
-        sign_2_values(signs+4, bits.values+2);
-        for (int k = 0; k < 4; ++k) bits.values[k] = _mm256_add_epi32(bits.values[k], min_value);
-    }
-    inline void prepare(int i, int j, const Q8<1>& q8, __m256i * q8_quants) {
-        for (int k = 0; k < 4; ++k) q8_quants[k] = q8.load_quants(0, i, 4*j+k);
-        auto qs = x[i].qs + 32*j;
-        const uint16_t * signs = (const uint16_t *)(x[i].qs + QK_K/4) + 8*j;
-        make4_unsigned(qs, bits.values);
-        sign_2_values(signs+0, q8_quants+0);
-        sign_2_values(signs+4, q8_quants+2);
-    }
-
-    constexpr static int minv = 64;
-
-    SimpleBits bits;
-    Scales8KBase scb;
-    EvenSignHelper esh;
-    const __m256i min_value = _mm256_set1_epi8(minv);
-
-};
-
-struct DequantizerIQ2S final : public BaseDequantizer<block_iq2_s> {
-    DequantizerIQ2S(const void * vx, size_t bx) : BaseDequantizer(vx, bx) {}
-
-    constexpr static int num_blocks = 16;
-
-    inline __m256i load_scales(int i) {
-        d = 0.125f * GGML_FP16_TO_FP32(x[i].d);
-        auto tmp = _mm_loadl_epi64((const __m128i *)x[i].scales);
-        auto all = _mm_and_si128(_mm_unpacklo_epi8(tmp, _mm_srli_epi16(tmp, 4)), _mm_set1_epi8(0xf));
-        auto scales8 = _mm_or_si128(_mm_slli_epi16(all, 1), _mm_set1_epi8(1));
-        return _mm256_cvtepi8_epi16(scales8);
-    }
-    inline static void prepare_scales(const __m256i& all, __m256i * scales) {
-        auto scales_l = _mm256_castsi256_si128(all);
-        auto scales_h = _mm256_extractf128_si256(all, 1);
-        scales[0] = MM256_SET_M128I(scales_l, scales_l);
-        scales[1] = MM256_SET_M128I(scales_h, scales_h);
-    }
-
-    inline void new_block(int i, __m256i * scales) {
-        prepare_scales(load_scales(i), scales);
-    }
-    inline float new_block(int i, __m256i * scales, __m256i& mins) {
-        mins = load_scales(i);
-        prepare_scales(mins, scales);
-        return -d*minv;
-    }
-
-    union index_t {
-        __m256i vec;
-        uint32_t val[8];
-    };
-
-    inline static void make2(const uint8_t * qs, const uint8_t * qh, const __m256i& idx_shift, const __m256i& idx_mask, __m256i * values) {
-        auto idx_l = _mm256_cvtepu8_epi32(_mm_loadl_epi64((const __m128i *)qs));
-        auto idx_h = MM256_SET_M128I(_mm_set1_epi32(qh[1]), _mm_set1_epi32(qh[0]));
-        index_t idx;
-        idx.vec = _mm256_or_si256(idx_l, _mm256_and_si256(_mm256_sllv_epi32(idx_h, idx_shift), idx_mask));
-        values[0] = _mm256_set_epi64x(iq2s_grid[idx.val[3]], iq2s_grid[idx.val[2]], iq2s_grid[idx.val[1]], iq2s_grid[idx.val[0]]);
-        values[1] = _mm256_set_epi64x(iq2s_grid[idx.val[7]], iq2s_grid[idx.val[6]], iq2s_grid[idx.val[5]], iq2s_grid[idx.val[4]]);
-    }
-    inline static void make2_signed(const SignHelper& sh, const uint8_t * qs, const uint8_t * qh, const uint16_t * sidx,
-            const __m256i& idx_shift, const __m256i& idx_mask, const __m256i& min_value, __m256i * values) {
-        make2(qs, qh, idx_shift, idx_mask, values);
-        values[0] = _mm256_add_epi8(sh.sign_value(sidx+0, values[0]), min_value);
-        values[1] = _mm256_add_epi8(sh.sign_value(sidx+2, values[1]), min_value);
-    }
-
-    inline void prepare(int i, int j) {
-        auto qs = x[i].qs + 16*j;
-        auto qh = x[i].qh +  4*j;
-        const uint16_t * signs = (const uint16_t *)(x[i].qs + QK_K/8) + 8*j;
-        make2_signed(sh, qs+0, qh+0, signs+0, idx_shift, idx_mask, min_value, bits.values+0);
-        make2_signed(sh, qs+8, qh+2, signs+4, idx_shift, idx_mask, min_value, bits.values+2);
-    }
-    inline void prepare(int i, int j, const Q8<1>& q8, __m256i * q8_quants) {
-        auto qs = x[i].qs + 16*j;
-        auto qh = x[i].qh +  4*j;
-        const uint16_t * signs = (const uint16_t *)(x[i].qs + QK_K/8) + 8*j;
-        make2(qs+0, qh+0, idx_shift, idx_mask, bits.values+0);
-        make2(qs+8, qh+2, idx_shift, idx_mask, bits.values+2);
-        q8_quants[0] = _mm256_sign_epi8(q8.load_quants(0, i, 4*j+0), sh.make_signs(signs[0] | (signs[1] << 16)));
-        q8_quants[1] = _mm256_sign_epi8(q8.load_quants(0, i, 4*j+1), sh.make_signs(signs[2] | (signs[3] << 16)));
-        q8_quants[2] = _mm256_sign_epi8(q8.load_quants(0, i, 4*j+2), sh.make_signs(signs[4] | (signs[5] << 16)));
-        q8_quants[3] = _mm256_sign_epi8(q8.load_quants(0, i, 4*j+3), sh.make_signs(signs[6] | (signs[7] << 16)));
-    }
-
-    constexpr static int minv = 43;
-
-    SimpleBits bits;
-    SignHelper sh;
-    const __m256i idx_shift = _mm256_set_epi32(2, 4, 6, 8, 2, 4, 6, 8);
-    const __m256i idx_mask  = _mm256_set1_epi32(0x300);
-    const __m256i min_value = _mm256_set1_epi8(minv);
-
-};
-
-struct DequantizerIQ2XS final : public BaseDequantizer<block_iq2_xs> {
-    DequantizerIQ2XS(const void * vx, size_t bx) : BaseDequantizer(vx, bx) {}
-
-    constexpr static int num_blocks = 16;
-
-    inline __m256i load_scales(int i) {
-        d = 0.125f * GGML_FP16_TO_FP32(x[i].d);
-        auto tmp = _mm_loadl_epi64((const __m128i *)x[i].scales);
-        auto all = _mm_and_si128(_mm_unpacklo_epi8(tmp, _mm_srli_epi16(tmp, 4)), _mm_set1_epi8(0xf));
-        auto scales8 = _mm_or_si128(_mm_slli_epi16(all, 1), _mm_set1_epi8(1));
-        return _mm256_cvtepi8_epi16(scales8);
-    }
-    inline static void prepare_scales(const __m256i& all, __m256i * scales) {
-        auto scales_l = _mm256_castsi256_si128(all);
-        auto scales_h = _mm256_extractf128_si256(all, 1);
-        scales[0] = MM256_SET_M128I(scales_l, scales_l);
-        scales[1] = MM256_SET_M128I(scales_h, scales_h);
-    }
-
-    inline void new_block(int i, __m256i * scales) {
-        prepare_scales(load_scales(i), scales);
-    }
-    inline float new_block(int i, __m256i * scales, __m256i& mins) {
-        mins = load_scales(i);
-        prepare_scales(mins, scales);
-        return -d*minv;
-    }
-
-    struct Helper {
-        const __m256i mone = _mm256_set1_epi8(1);
-        const __m256i mask = _mm256_set1_epi64x(0x8040201008040201);
-        //const __m256i bhelper = _mm256_set_epi64x(0x8000008000808000, 0x0080800080000080, 0x8000008000808000, 0x0080800080000080);
-        const __m256i bhelper = load_bhelper();
-        const __m256i shuff1  = _mm256_set_epi64x(0x0606060606060606, 0x0404040404040404, 0x0202020202020202, 0x0000000000000000);
-        const __m256i shuff2  = _mm256_set_epi64x(0x0e0e0e0e0e0e0e0e, 0x0c0c0c0c0c0c0c0c, 0x0a0a0a0a0a0a0a0a, 0x0808080808080808);
-        static __m256i load_bhelper() {
-            static const uint8_t k_bit_helper[32] = {
-                0x00, 0x80, 0x80, 0x00, 0x80, 0x00, 0x00, 0x80, 0x80, 0x00, 0x00, 0x80, 0x00, 0x80, 0x80, 0x00,
-                0x00, 0x80, 0x80, 0x00, 0x80, 0x00, 0x00, 0x80, 0x80, 0x00, 0x00, 0x80, 0x00, 0x80, 0x80, 0x00,
-            };
-            return _mm256_loadu_si256((const __m256i*)k_bit_helper);
-        }
-    };
-
-    union index_t {
-        __m256i vec;
-        uint16_t val[8];
-    };
-
-    inline static void make4(const __m256i& data, const __m256i& mask, __m256i * values) {
-        index_t idx;
-        idx.vec = _mm256_and_si256(data, mask);
-        values[0] = _mm256_set_epi64x(iq2xs_grid[idx.val[ 3]], iq2xs_grid[idx.val[ 2]], iq2xs_grid[idx.val[ 1]], iq2xs_grid[idx.val[ 0]]);
-        values[1] = _mm256_set_epi64x(iq2xs_grid[idx.val[ 7]], iq2xs_grid[idx.val[ 6]], iq2xs_grid[idx.val[ 5]], iq2xs_grid[idx.val[ 4]]);
-        values[2] = _mm256_set_epi64x(iq2xs_grid[idx.val[11]], iq2xs_grid[idx.val[10]], iq2xs_grid[idx.val[ 9]], iq2xs_grid[idx.val[ 8]]);
-        values[3] = _mm256_set_epi64x(iq2xs_grid[idx.val[15]], iq2xs_grid[idx.val[14]], iq2xs_grid[idx.val[13]], iq2xs_grid[idx.val[12]]);
-    }
-    inline static void sign_value(const __m256i& sign_bits, const __m256i& shuffle, const __m256i& mask,
-            const __m256i& mone, __m256i& value) {
-        auto signs = _mm256_shuffle_epi8(sign_bits, shuffle);
-        signs = _mm256_cmpeq_epi8(_mm256_and_si256(signs, mask), mask);
-        value = _mm256_sign_epi8(value, _mm256_or_si256(signs, mone));
-    }
-    inline void sign_values(const __m256i& data, __m256i * values) const {
-#if defined HAVE_FANCY_SIMD && defined __AVX512VPOPCNTDQ__
-        auto partial_bits = _mm256_cvtepi16_epi8(_mm256_srli_epi16(data,  9));
-        auto pcnt = _mm_popcnt_epi8(partial_bits);
-        auto full_bits = _mm_or_si128(partial_bits, _mm_slli_epi16(_mm_and_si128(pcnt, _mm_set1_epi8(1)), 7));
-        const __mmask32 * m32 = (const __mmask32 *)&full_bits;
-        auto zero = _mm256_setzero_si256();
-        values[0] = _mm256_mask_sub_epi8(values[0], m32[0], zero, values[0]);
-        values[1] = _mm256_mask_sub_epi8(values[1], m32[1], zero, values[1]);
-        values[2] = _mm256_mask_sub_epi8(values[2], m32[2], zero, values[2]);
-        values[3] = _mm256_mask_sub_epi8(values[3], m32[3], zero, values[3]);
-#else
-        auto psb1 = _mm256_srli_epi16(data,  9);
-        auto psb2 = _mm256_srli_epi16(data, 13);
-        auto psbc = _mm256_xor_si256(psb1, psb2);
-        auto oddb = _mm256_shuffle_epi8(helper.bhelper, psbc);
-        auto full = _mm256_or_si256(psb1, oddb);
-        auto full_l = _mm256_castsi256_si128(full);
-        auto full_h = _mm256_extractf128_si256(full, 1);
-        auto full_1 = MM256_SET_M128I(full_l, full_l);
-        auto full_2 = MM256_SET_M128I(full_h, full_h);
-        sign_value(full_1, helper.shuff1, helper.mask, helper.mone, values[0]);
-        sign_value(full_1, helper.shuff2, helper.mask, helper.mone, values[1]);
-        sign_value(full_2, helper.shuff1, helper.mask, helper.mone, values[2]);
-        sign_value(full_2, helper.shuff2, helper.mask, helper.mone, values[3]);
-#endif
-    }
-    inline void make4_signed(const uint16_t * qs, const __m256i& m511,
-            const __m256i& min_value, __m256i * values) const {
-        auto q2 = _mm256_loadu_si256((const __m256i *)qs);
-        make4(q2, m511, values);
-        sign_values(q2, values);
-        for (int k = 0; k < 4; ++k) values[k] = _mm256_add_epi8(values[k], min_value);
-    }
-    inline void make4(const uint16_t * qs, const __m256i& m511, __m256i * values, __m256i * q8) const {
-        auto q2 = _mm256_loadu_si256((const __m256i *)qs);
-        make4(q2, m511, values);
-        sign_values(q2, q8);
-    }
-
-    inline void prepare(int i, int j) {
-        make4_signed(x[i].qs + 16*j, idx_mask, min_value, bits.values);
-    }
-    inline void prepare(int i, int j, const Q8<1>& q8, __m256i * q8_quants) {
-        for (int k = 0; k < 4; ++k) q8_quants[k] = q8.load_quants(0, i, 4*j+k);
-        make4(x[i].qs + 16*j, idx_mask, bits.values, q8_quants);
-    }
-
-    constexpr static int minv = 43;
-
-    SimpleBits bits;
-#if !(defined HAVE_FANCY_SIMD && defined __AVX512VPOPCNTDQ__)
-    Helper helper;
-#endif
-    const __m256i idx_mask  = _mm256_set1_epi16(511);
-    const __m256i min_value = _mm256_set1_epi8(minv);
-
-};
-
-struct DequantizerIQ2XXS final : public BaseDequantizer<block_iq2_xxs> {
-    DequantizerIQ2XXS(const void * vx, size_t bx) : BaseDequantizer(vx, bx) {}
-
-    constexpr static int num_blocks = 8;
-
-    union Data {
-        __m256i vec;
-        uint32_t val[8];
-    };
-
-    inline __m128i load_scales(int i) {
-        d = 0.125f * GGML_FP16_TO_FP32(x[i].d);
-        const uint16_t * a16 = (const uint16_t *)x[i].qs;
-        auto scales = _mm_srli_epi16(_mm_set_epi16(a16[31], a16[27], a16[23], a16[19], a16[15], a16[11], a16[7], a16[3]), 12);
-        return _mm_or_si128(_mm_slli_epi16(scales, 1), _mm_set1_epi16(1));
-    }
-
-    inline void new_block(int i, __m256i * scales) {
-        auto sc16 = load_scales(i);
-        scales[0] = MM256_SET_M128I(sc16, sc16);
-    }
-    inline float new_block(int i, __m256i * scales, __m256i& mins) {
-        auto sc16 = load_scales(i);
-        mins = scb.shuffle(sc16);
-        scales[0] = MM256_SET_M128I(sc16, sc16);
-        return -d*minv;
-    }
-
-    inline static void make4(const uint32_t * aux32, __m256i * values) {
-        const uint8_t * aux8 = (const uint8_t *)aux32;
-        values[0] = _mm256_set_epi64x(iq2xxs_grid[aux8[ 3]], iq2xxs_grid[aux8[ 2]], iq2xxs_grid[aux8[ 1]], iq2xxs_grid[aux8[ 0]]);
-        values[1] = _mm256_set_epi64x(iq2xxs_grid[aux8[11]], iq2xxs_grid[aux8[10]], iq2xxs_grid[aux8[ 9]], iq2xxs_grid[aux8[ 8]]);
-        values[2] = _mm256_set_epi64x(iq2xxs_grid[aux8[19]], iq2xxs_grid[aux8[18]], iq2xxs_grid[aux8[17]], iq2xxs_grid[aux8[16]]);
-        values[3] = _mm256_set_epi64x(iq2xxs_grid[aux8[27]], iq2xxs_grid[aux8[26]], iq2xxs_grid[aux8[25]], iq2xxs_grid[aux8[24]]);
-    }
-
-    IQK_ALWAYS_INLINE void sign_values(const uint32_t * aux32, __m256i * values) const {
-#if defined HAVE_FANCY_SIMD && defined __AVX512VPOPCNTDQ__
-        esh.sign_2_values(MM256_SET_M128I(_mm_set1_epi32(aux32[3]), _mm_set1_epi32(aux32[1])), values+0);
-        esh.sign_2_values(MM256_SET_M128I(_mm_set1_epi32(aux32[7]), _mm_set1_epi32(aux32[5])), values+2);
-#else
-        esh.sign_value(aux32[1], values[0]);
-        esh.sign_value(aux32[3], values[1]);
-        esh.sign_value(aux32[5], values[2]);
-        esh.sign_value(aux32[7], values[3]);
-#endif
-    }
-    inline void make4_signed(const uint32_t * aux32, const __m256i& min_value, __m256i * values) const {
-        make4(aux32, values);
-        sign_values(aux32, values);
-        for (int k = 0; k < 4; ++k) values[k] = _mm256_add_epi8(values[k], min_value);
-    }
-    inline void make4(const uint32_t * aux32, __m256i * values, __m256i * q8) const {
-        make4(aux32, values);
-        sign_values(aux32, q8);
-    }
-    inline void prepare(int i, int j) {
-        Data data; data.vec = _mm256_loadu_si256((const __m256i *)x[i].qs + j);
-        make4_signed(data.val, min_value, bits.values);
-    }
-    inline void prepare(int i, int j, const Q8<1>& q8, __m256i * q8_quants) {
-        for (int k = 0; k < 4; ++k) q8_quants[k] = q8.load_quants(0, i, 4*j+k);
-        Data data; data.vec = _mm256_loadu_si256((const __m256i *)x[i].qs + j);
-        make4(data.val, bits.values, q8_quants);
-    }
-
-    constexpr static int minv = 43;
-    SimpleBits bits;
-    Scales8KBase scb;
-    EvenSignHelper esh;
-    const __m256i min_value = _mm256_set1_epi8(minv);
-    const __m256i shuffle = _mm256_set_epi32(7, 5, 3, 1, 7, 5, 3, 1);
-};
-
 template <typename Dequantizer> void MulMat::set_functions(MulMat& m) {
-        if constexpr (std::is_same_v<Dequantizer, DequantizerIQ3S> || std::is_same_v<Dequantizer, DequantizerIQ3XXS> ||
-                      std::is_same_v<Dequantizer, DequantizerIQ2S> || std::is_same_v<Dequantizer, DequantizerIQ2XS>  ||
-                      std::is_same_v<Dequantizer, DequantizerIQ2XXS>) {
-            m.funcs[0] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 1>;
-            m.funcs[1] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 2>;
-            m.funcs[2] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 3>;
-            m.funcs[3] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 4>;
-            m.funcs[4] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 5>;
-            m.funcs[5] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 6>;
-            m.funcs[6] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 7>;
-            m.funcs[7] = mul_mat_qX_K_q8_K_IQ<Dequantizer, 8>;
-        }
-        else {
 #ifdef HAVE_FANCY_SIMD
-            if constexpr (std::is_same_v<Dequantizer, DequantizerIQ6K> ||
-                          std::is_same_v<Dequantizer, DequantizerIQ5K> ||
-                          std::is_same_v<Dequantizer, DequantizerIQ4K> ||
-                          std::is_same_v<Dequantizer, DequantizerIQ3K> ||
-                          std::is_same_v<Dequantizer, DequantizerIQ4XS>||
-                          //std::is_same_v<Dequantizer, DequantizerIQ4KS>||
-                          //std::is_same_v<Dequantizer, DequantizerIQ5KS>||
-                          std::is_same_v<Dequantizer, DequantizerIQ4KSS>) {
-                m.funcs[0] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 1>;
-                m.funcs[1] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 2>;
-                m.funcs[2] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 3>;
-                m.funcs[3] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 4>;
-                m.funcs[4] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 5>;
-                m.funcs[5] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 6>;
-                m.funcs[6] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 7>;
-                m.funcs[7] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 8>;
-            } else if constexpr (std::is_same_v<Dequantizer, DequantizerIQ2KS> ||
-                                 std::is_same_v<Dequantizer, DequantizerIQ4KS> ||
-                                 std::is_same_v<Dequantizer, DequantizerIQ5KS>) {
-                m.funcs[0] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 1>;
-                m.funcs[1] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 2>;
-                m.funcs[2] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 3>;
-                m.funcs[3] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 4>;
-                m.funcs[4] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 5>;
-                m.funcs[5] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 6>;
-                m.funcs[6] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 7>;
-                m.funcs[7] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 8>;
-            } else {
-                m.funcs[0] = mul_mat_qX_K_q8_K_AVX512_1<Dequantizer>;
-                m.funcs[1] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 2>;
-                m.funcs[2] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 3>;
-                m.funcs[3] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 4>;
-                m.funcs[4] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 5>;
-                m.funcs[5] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 6>;
-                m.funcs[6] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 7>;
-                m.funcs[7] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 8>;
-            }
+    if constexpr (std::is_same_v<Dequantizer, DequantizerIQ6K> ||
+                  std::is_same_v<Dequantizer, DequantizerIQ5K> ||
+                  std::is_same_v<Dequantizer, DequantizerIQ4K> ||
+                  std::is_same_v<Dequantizer, DequantizerIQ3K> ||
+                  std::is_same_v<Dequantizer, DequantizerIQ4KSS>) {
+        m.funcs[0] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 1>;
+        m.funcs[1] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 2>;
+        m.funcs[2] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 3>;
+        m.funcs[3] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 4>;
+        m.funcs[4] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 5>;
+        m.funcs[5] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 6>;
+        m.funcs[6] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 7>;
+        m.funcs[7] = mul_mat_iqX_k_q8_K_AVX512<Dequantizer, 8>;
+    } else if constexpr (std::is_same_v<Dequantizer, DequantizerIQ2KS> ||
+                         std::is_same_v<Dequantizer, DequantizerIQ4KS> ||
+                         std::is_same_v<Dequantizer, DequantizerIQ5KS>) {
+        m.funcs[0] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 1>;
+        m.funcs[1] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 2>;
+        m.funcs[2] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 3>;
+        m.funcs[3] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 4>;
+        m.funcs[4] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 5>;
+        m.funcs[5] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 6>;
+        m.funcs[6] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 7>;
+        m.funcs[7] = mul_mat_iqX_k_q8_K_AVX512_new<Dequantizer, 8>;
+    } else {
+        m.funcs[0] = mul_mat_qX_K_q8_K_AVX512_1<Dequantizer>;
+        m.funcs[1] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 2>;
+        m.funcs[2] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 3>;
+        m.funcs[3] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 4>;
+        m.funcs[4] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 5>;
+        m.funcs[5] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 6>;
+        m.funcs[6] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 7>;
+        m.funcs[7] = mul_mat_qX_K_q8_K_AVX512<Dequantizer, 8>;
+    }
 #else
-            if constexpr (std::is_same_v<Dequantizer, DequantizerIQ2K>||
-                          std::is_same_v<Dequantizer, DequantizerIQ3K>||
-                          std::is_same_v<Dequantizer, DequantizerIQ4K>||
-                          std::is_same_v<Dequantizer, DequantizerIQ5K>||
-                          std::is_same_v<Dequantizer, DequantizerIQ6K>) {
-                m.funcs[0] = mul_mat_qY_K_q8_K_T<Dequantizer, 1>;
-                m.funcs[1] = mul_mat_qY_K_q8_K_T<Dequantizer, 2>;
-                m.funcs[2] = mul_mat_qY_K_q8_K_T<Dequantizer, 3>;
-                m.funcs[3] = mul_mat_qY_K_q8_K_T<Dequantizer, 4>;
-                m.funcs[4] = mul_mat_qY_K_q8_K_T<Dequantizer, 5>;
-                m.funcs[5] = mul_mat_qY_K_q8_K_T<Dequantizer, 6>;
-                m.funcs[6] = mul_mat_qY_K_q8_K_T<Dequantizer, 7>;
-                m.funcs[7] = mul_mat_qY_K_q8_K_T<Dequantizer, 8>;
-            } else {
-                m.funcs[0] = mul_mat_qX_K_q8_K_T<Dequantizer, 1>;
-                m.funcs[1] = mul_mat_qX_K_q8_K_T<Dequantizer, 2>;
-                m.funcs[2] = mul_mat_qX_K_q8_K_T<Dequantizer, 3>;
-                m.funcs[3] = mul_mat_qX_K_q8_K_T<Dequantizer, 4>;
-                m.funcs[4] = mul_mat_qX_K_q8_K_T<Dequantizer, 5>;
-                m.funcs[5] = mul_mat_qX_K_q8_K_T<Dequantizer, 6>;
-                m.funcs[6] = mul_mat_qX_K_q8_K_T<Dequantizer, 7>;
-                m.funcs[7] = mul_mat_qX_K_q8_K_T<Dequantizer, 8>;
-            }
+    if constexpr (std::is_same_v<Dequantizer, DequantizerIQ2K>||
+                         std::is_same_v<Dequantizer, DequantizerIQ3K>||
+                         std::is_same_v<Dequantizer, DequantizerIQ4K>||
+                         std::is_same_v<Dequantizer, DequantizerIQ5K>||
+                         std::is_same_v<Dequantizer, DequantizerIQ6K>) {
+        m.funcs[0] = mul_mat_qY_K_q8_K_T<Dequantizer, 1>;
+        m.funcs[1] = mul_mat_qY_K_q8_K_T<Dequantizer, 2>;
+        m.funcs[2] = mul_mat_qY_K_q8_K_T<Dequantizer, 3>;
+        m.funcs[3] = mul_mat_qY_K_q8_K_T<Dequantizer, 4>;
+        m.funcs[4] = mul_mat_qY_K_q8_K_T<Dequantizer, 5>;
+        m.funcs[5] = mul_mat_qY_K_q8_K_T<Dequantizer, 6>;
+        m.funcs[6] = mul_mat_qY_K_q8_K_T<Dequantizer, 7>;
+        m.funcs[7] = mul_mat_qY_K_q8_K_T<Dequantizer, 8>;
+    } else {
+        m.funcs[0] = mul_mat_qX_K_q8_K_T<Dequantizer, 1>;
+        m.funcs[1] = mul_mat_qX_K_q8_K_T<Dequantizer, 2>;
+        m.funcs[2] = mul_mat_qX_K_q8_K_T<Dequantizer, 3>;
+        m.funcs[3] = mul_mat_qX_K_q8_K_T<Dequantizer, 4>;
+        m.funcs[4] = mul_mat_qX_K_q8_K_T<Dequantizer, 5>;
+        m.funcs[5] = mul_mat_qX_K_q8_K_T<Dequantizer, 6>;
+        m.funcs[6] = mul_mat_qX_K_q8_K_T<Dequantizer, 7>;
+        m.funcs[7] = mul_mat_qX_K_q8_K_T<Dequantizer, 8>;
+    }
 #endif
-        }
 }

 bool MulMat::prepare(int typeA, int typeB, int ne00, MulMat& mm, int Ny) {
@@ -8189,11 +7499,14 @@ bool MulMat::prepare(int typeA, int typeB, int ne00, MulMat& mm, int Ny) {
        case GGML_TYPE_Q4_K:
        case GGML_TYPE_Q5_K:
        case GGML_TYPE_Q6_K:
-            return ggml_type(typeB) == GGML_TYPE_Q8_K ? iqk_set_kernels_kquants(ne00, typeA, typeB, mm.funcs) : false;
        case GGML_TYPE_IQ4_XS:
-            assert (ne00 % QK_K == 0);
-            MulMat::set_functions<DequantizerIQ4XS>(mm);
-            break;
+            return ggml_type(typeB) == GGML_TYPE_Q8_K ? iqk_set_kernels_kquants(ne00, typeA, typeB, mm.funcs) : false;
+        case GGML_TYPE_IQ3_S:
+        case GGML_TYPE_IQ3_XXS:
+        case GGML_TYPE_IQ2_S:
+        case GGML_TYPE_IQ2_XS:
+        case GGML_TYPE_IQ2_XXS:
+            return ggml_type(typeB) == GGML_TYPE_Q8_K ? iqk_set_kernels_iquants(ne00, typeA, typeB, mm.funcs) : false;
        case GGML_TYPE_IQ4_KS:
            assert (ne00 % QK_K == 0);
            MulMat::set_functions<DequantizerIQ4KS>(mm);
@@ -8230,26 +7543,6 @@ bool MulMat::prepare(int typeA, int typeB, int ne00, MulMat& mm, int Ny) {
            assert (ne00 % QK_K == 0);
            MulMat::set_functions<DequantizerIQ6K>(mm);
            break;
-        case GGML_TYPE_IQ3_S:
-            assert (ne00 % QK_K == 0);
-            MulMat::set_functions<DequantizerIQ3S>(mm);
-            break;
-        case GGML_TYPE_IQ3_XXS:
-            assert (ne00 % QK_K == 0);
-            MulMat::set_functions<DequantizerIQ3XXS>(mm);
-            break;
-        case GGML_TYPE_IQ2_S:
-            assert (ne00 % QK_K == 0);
-            MulMat::set_functions<DequantizerIQ2S>(mm);
-            break;
-        case GGML_TYPE_IQ2_XS:
-            assert (ne00 % QK_K == 0);
-            MulMat::set_functions<DequantizerIQ2XS>(mm);
-            break;
-        case GGML_TYPE_IQ2_XXS:
-            assert (ne00 % QK_K == 0);
-            MulMat::set_functions<DequantizerIQ2XXS>(mm);
-            break;
        case GGML_TYPE_IQ1_BN:
            assert (ne00 % QK_IQ1BN == 0);
            mm.funcs[0] = mul_mat_iq1bn_q8_K64<1>;