Put iqk mmvq implementations into template instances

2026-02-24 07:04:11 +00:00 · 2025-10-25 08:18:02 +03:00
parent 79d1c4ebb9
commit 5ff69380db
27 changed files with 1051 additions and 1053 deletions
--- a/ggml/src/ggml-cuda/iqk_mmvq_templates.cuh
+++ b/ggml/src/ggml-cuda/iqk_mmvq_templates.cuh
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq1_bn.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq1_bn.cu
@@ -1,5 +1,64 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq1_bn_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    half d16; memcpy(&d16, vbq, sizeof(d16));
+    float scale = d16;
+    const block_iq1_bn * bq1 = (const block_iq1_bn *)((const char *)vbq + sizeof(d16)) + kbx;
+
+    // iqs is 0 or 1
+
+    int sumi = 0;
+#if __CUDA_ARCH__ >= MIN_CC_DP4A // lowest compute capability for integer intrinsics
+    uint16_t mult[2];
+    mult[1] = iqs == 0 ? 27 : 3;
+    mult[0] = mult[1] + (mult[1] << 1);
+    const int * q8 = (const int *)bq8_1[iqs].qs;
+    int val[4];
+    for (int l = 0; l < 2; ++l) {
+        int8_t * a = (int8_t *)val;
+        const int i16 = 2*iqs + l;
+        for (int k = 0; k < 3; ++k) {
+            uint16_t q = bq1->ql[3*i16+k];
+            for (int j = 4; j >= 0; --j) {
+                uint16_t v = q & 0xff;
+                v += v << 1;
+                a[j] = v >> 8;
+                q += q << 1;
+            }
+            a += 5;
+        }
+        uint16_t v = (mult[l]*bq1->extra) & 0xff;
+        v += v << 1;
+        *a = v >> 8;
+        sumi = __dp4a(val[0], q8[4*l+0], __dp4a(val[1], q8[4*l+1], __dp4a(val[2], q8[4*l+2], __dp4a(val[3], q8[4*l+3], sumi))));
+    }
+    float2 d8 = __half22float2(bq8_1[iqs].ds);
+    *result += scale * (d8.x * sumi - d8.y);
+#else
+    static const uint16_t k_mult[5] = {81, 27, 9, 3, 1};
+    const int8_t * q8 = bq8_1[iqs].qs;
+    for (int l = 0; l < 2; ++l) {
+        const int i16 = 2*iqs + l;
+        for (int k = 0; k < 3; ++k) {
+            uint8_t q = bq1->ql[3*i16+k];
+            for (int j = 0; j < 5; ++j) {
+                uint8_t v = k_mult[j]*q;
+                int8_t vs = (v + (v >> 1)) >> 7;
+                sumi += q8[j]*(vs - 1);
+            }
+            q8 += 5;
+        }
+        uint8_t v = k_mult[i16]*bq1->extra;
+        int8_t vs = (v + (v >> 1)) >> 7;
+        sumi += q8[0]*(vs - 1);
+        q8++;
+    }
+    *result += scale * __low2float(bq8_1[iqs].ds) * sumi;
+#endif
+}
+
 void mul_mat_vec_iq1_bn_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ1_BN, 1, vec_dot_iq1_bn_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq1_kt.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq1_kt.cu
@@ -1,5 +1,38 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq1_kt_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    constexpr uint32_t ka = 0xCBAC1FED;
+    constexpr uint32_t km = 0x3f3f3f3f;
+
+    float scale = *(const float *)vbq;
+    const block_iq1_kt * bq1 = (const block_iq1_kt *)((const char *)vbq + sizeof(float)) + kbx;
+
+    // iqs is 0...28
+    const int ib32 = iqs/4;
+    const int32_t  * q8 = (const int *)bq8_1[ib32].qs;
+    const int ls = iq4k_values[bq1->sh[ib32] & 0xf];
+    const float dl = scale * ls;
+    int sumi = 0;
+    for (int j = 0; j < 4; ++j) {
+        uint32_t val = bq1->ql[4*ib32+j] + 4096 + ((bq1->qh[4*(ib32%4)+j] << (8 - 4*(ib32/4))) & 0xf00) + ((bq1->sh[ib32] << (8 - j)) & 0x1000);
+        int v4 = 0;
+        for (int k = 0; k < 4; ++k) {
+            val *= ka;
+            v4 |= (ggml_cuda_dp4a(val & km, 0x01010101, -126) & 0xff) << 8*k;
+        }
+        sumi = ggml_cuda_dp4a(v4, q8[2*j+0], sumi);
+        v4 = 0;
+        for (int k = 0; k < 4; ++k) {
+            val *= ka;
+            v4 |= (ggml_cuda_dp4a(val & km, 0x01010101, -126) & 0xff) << 8*k;
+        }
+        sumi = ggml_cuda_dp4a(v4, q8[2*j+1], sumi);
+    }
+    *result += dl * __low2float(bq8_1[ib32].ds) * sumi;
+}
+
 void mul_mat_vec_iq1_kt_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ1_KT, VDR_IQ4_KS_Q8_1_MMVQ, vec_dot_iq1_kt_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq1_m_r4.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq1_m_r4.cu
@@ -1,5 +1,37 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq1_m_r4_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    const half * dptr = (const half *)vbq;
+    const block_iq1_m_r4 * bq1 = (const block_iq1_m_r4 *)(dptr + 4) + kbx;
+
+    // iqs is 0 or 2
+    const float d8 = __low2float(bq8_1->ds);
+    const int32_t  * q8 = (const int *)bq8_1->qs;
+
+    int32_t grid32[2];
+    const int * igrid = (const int *)grid32;
+
+    int minus1 = ggml_cuda_dp4a(0x01010101, q8[4*(iqs/2)+0], ggml_cuda_dp4a(0x01010101, q8[4*(iqs/2)+1], 0));
+    int minus2 = ggml_cuda_dp4a(0x01010101, q8[4*(iqs/2)+2], ggml_cuda_dp4a(0x01010101, q8[4*(iqs/2)+3], 0));
+
+    for (int i = 0; i < 4; ++i) {
+        float dl = __half2float(dptr[i])*((bq1->scales[i] >> 4*(iqs/2)) & 0xf) * d8;
+        float ml1 = dl * (bq1->qh[4*(iqs/2)+i] & 0x08 ? -1-IQ1M_DELTA : -1+IQ1M_DELTA);
+        float ml2 = dl * (bq1->qh[4*(iqs/2)+i] & 0x80 ? -1-IQ1M_DELTA : -1+IQ1M_DELTA);
+        grid32[0] = iq1s_grid_gpu[bq1->qs[4*iqs+i] | ((bq1->qh[4*(iqs/2)+i] & 0x07) << 8)];
+        grid32[1] = (grid32[0] >> 4) & 0x0f0f0f0f;
+        grid32[0] &= 0x0f0f0f0f;
+        int sumi = ggml_cuda_dp4a(igrid[0], q8[4*(iqs/2)+0], ggml_cuda_dp4a(igrid[1], q8[4*(iqs/2)+1], 0));
+        grid32[0] = iq1s_grid_gpu[bq1->qs[4*iqs+i+4] | ((bq1->qh[4*(iqs/2)+i] & 0x70) << 4)];
+        grid32[1] = (grid32[0] >> 4) & 0x0f0f0f0f;
+        grid32[0] &= 0x0f0f0f0f;
+        sumi = ggml_cuda_dp4a(igrid[0], q8[4*(iqs/2)+2], ggml_cuda_dp4a(igrid[1], q8[4*(iqs/2)+3], sumi));
+        result[i] += dl * sumi + ml1 * minus1 + ml2*minus2;
+    }
+}
+
 void mul_mat_vec_iq1_m_r4_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ1_M_R4, 2, vec_dot_iq1_m_r4_q8_1, 4>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq1_s_r4.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq1_s_r4.cu
@@ -1,5 +1,36 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq1_s_r4_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    const half * dptr = (const half *)vbq;
+    const block_iq1_s_r4 * bq1 = (const block_iq1_s_r4 *)(dptr + 4) + kbx;
+
+    // iqs is 0 or 2
+    const float d8 = __low2float(bq8_1->ds);
+    const int32_t  * q8 = (const int *)bq8_1->qs;
+
+    int32_t grid32[2];
+    const int * igrid = (const int *)grid32;
+
+    int minus = 0;
+    for (int k = 0; k < 4; ++k) minus = ggml_cuda_dp4a(0x01010101, q8[4*(iqs/2)+k], minus);
+
+    for (int i = 0; i < 4; ++i) {
+        float dl = __half2float(dptr[i])*(2*((bq1->qh[i] >> 12) & 7) + 1) * d8;
+        float ml = dl * (bq1->qh[i] & 0x8000 ? -1-IQ1S_DELTA : -1+IQ1S_DELTA);
+        grid32[0] = iq1s_grid_gpu[bq1->qs[4*iqs+i] | (((bq1->qh[i] >> 3*iqs) & 7) << 8)];
+        grid32[1] = (grid32[0] >> 4) & 0x0f0f0f0f;
+        grid32[0] &= 0x0f0f0f0f;
+        int sumi = ggml_cuda_dp4a(igrid[0], q8[4*(iqs/2)+0], ggml_cuda_dp4a(igrid[1], q8[4*(iqs/2)+1], 0));
+        grid32[0] = iq1s_grid_gpu[bq1->qs[4*iqs+i+4] | (((bq1->qh[i] >> (3*iqs+3)) & 7) << 8)];
+        grid32[1] = (grid32[0] >> 4) & 0x0f0f0f0f;
+        grid32[0] &= 0x0f0f0f0f;
+        sumi = ggml_cuda_dp4a(igrid[0], q8[4*(iqs/2)+2], ggml_cuda_dp4a(igrid[1], q8[4*(iqs/2)+3], sumi));
+        result[i] += dl * sumi + ml * minus;
+    }
+}
+
 void mul_mat_vec_iq1_s_r4_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ1_S_R4, 2, vec_dot_iq1_s_r4_q8_1, 4>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_bn.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_bn.cu
@@ -1,5 +1,46 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq2_bn_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    float scale = *(const float *)vbq;
+    const block_iq2_bn * bq2 = (const block_iq2_bn *)((const char *)vbq + sizeof(float)) + kbx;
+
+    // iqs is 0 or 1
+
+#if __CUDA_ARCH__ >= MIN_CC_DP4A // lowest compute capability for integer intrinsics
+    auto qs  = (const int *)bq2->qs + 2*iqs;
+    auto q8l = (const int *)bq8_1[0].qs + 2*iqs;
+    auto q8h = (const int *)bq8_1[1].qs + 2*iqs;
+    int sumi1 = 0, sumi2 = 0, sumi3 = 0, sumi4 = 0;
+    for (int j = 0; j < 2; ++j) {
+        int vl = qs[j];
+        int vh = qs[j] >> 4;
+        sumi1 = __dp4a(vl & 0x03030303, q8l[j+0], sumi1);
+        sumi2 = __dp4a(vl & 0x0c0c0c0c, q8l[j+4], sumi2);
+        sumi3 = __dp4a(vh & 0x03030303, q8h[j+0], sumi3);
+        sumi4 = __dp4a(vh & 0x0c0c0c0c, q8h[j+4], sumi4);
+    }
+    auto d8l = __half22float2(bq8_1[0].ds);
+    auto d8h = __half22float2(bq8_1[1].ds);
+    *result += scale * (d8l.x * (sumi1 + 0.25f*sumi2) + d8h.x * (sumi3 + 0.25f * sumi4) - 0.5f*d8l.y - 0.5f*d8h.y);
+#else
+    int sumi1 = 0, sumi2 = 0, sumi3 = 0, sumi4 = 0;
+    auto q8l = bq8_1[0].qs + 8*iqs;
+    auto q8h = bq8_1[1].qs + 8*iqs;
+    auto qs  = bq2->qs + 8*iqs;
+    for (int j = 0; j < 8; ++j) {
+        sumi1 += q8l[j+ 0] * (qs[j] & 0x03);
+        sumi2 += q8l[j+16] * (qs[j] & 0x0c);
+        sumi3 += q8h[j+ 0] * (qs[j] & 0x30);
+        sumi4 += q8h[j+16] * (qs[j] & 0xc0);
+    }
+    auto d8l = __half22float2(bq8_1[0].ds);
+    auto d8h = __half22float2(bq8_1[1].ds);
+    *result += scale * (d8l.x * (sumi1 + 0.25f*sumi2) + 0.0625f * d8h.x*(sumi3 + 0.25f*sumi4) - 0.5f*d8l.y - 0.5f*d8h.y);
+#endif
+}
+
 void mul_mat_vec_iq2_bn_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ2_BN, 1, vec_dot_iq2_bn_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_k.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_k.cu
@@ -1,5 +1,84 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq2_k_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    // iqs is 0, 4, 8, 12, 16, 20, 24, 28
+    // we have 16 packed quants (when cast to int)
+
+    int i4 = iqs/4;  // 0...7. We will process q8 blocks 4*(i4/4), 4*(i4/4)+1, 4*(i4/4)+2, 4*(i4/4)+3
+    const int32_t  * q8_1 = (const int *)bq8_1[4*(i4/4)+0].qs + 2*(i4%4);
+    const int32_t  * q8_2 = (const int *)bq8_1[4*(i4/4)+1].qs + 2*(i4%4);
+    const int32_t  * q8_3 = (const int *)bq8_1[4*(i4/4)+2].qs + 2*(i4%4);
+    const int32_t  * q8_4 = (const int *)bq8_1[4*(i4/4)+3].qs + 2*(i4%4);
+
+    const block_iq2_k * bq2 = (const block_iq2_k *) vbq + kbx;
+    const uint32_t * q2 = (const uint32_t *)bq2->qs + 8*(i4/4) + 2*(i4%4);
+    const uint16_t extra = bq2->extra >> (8*(i4/4) + (i4%4)/2);
+
+    const uint32_t * scales = (const uint32_t *)bq2->scales;
+    uint32_t s32 = __vsub4((scales[i4/4] >> 4*(((i4%4)/2)%2)) & 0x0f0f0f0f, 0x08080808);
+    const int8_t * s8 = (const int8_t *)&s32;
+
+    // Block of 16: (32*(4*(i4/4)+k)+8*(i4%4))/16 = 8*(i4/4) + 2*k + (i4%4)/2
+    // -> scales_l[4*(i4/4) + k] >> 4*(((i4%4)/2)%2)
+
+#ifdef __CUDA_ARCH__
+    uint32_t extra32 = uint32_t(extra & 0xff) * 0x01010101;
+    uint32_t extra32_1 = (extra32 << 2) & 0x44444444;
+    uint32_t extra32_2 = (extra32 << 0) & 0x44444444;
+
+    uint32_t val1, val2;
+
+    val1 = ((q2[0] >> 0) & 0x33333333) | extra32_1; val2 = ((q2[1] >> 0) & 0x33333333) | extra32_1;
+    int2 v1 = get_int_from_table_8(val1, iq2nl_values);
+    int2 v2 = get_int_from_table_8(val2, iq2nl_values);
+    int sumi1 = ggml_cuda_dp4a(v2.x, q8_1[1], ggml_cuda_dp4a(v1.x, q8_1[0], 0)) * s8[0];
+    int sumi3 = ggml_cuda_dp4a(v2.y, q8_3[1], ggml_cuda_dp4a(v1.y, q8_3[0], 0)) * s8[2];
+
+    val1 = ((q2[0] >> 2) & 0x33333333) | extra32_2; val2 = ((q2[1] >> 2) & 0x33333333) | extra32_2;
+    v1 = get_int_from_table_8(val1, iq2nl_values);
+    v2 = get_int_from_table_8(val2, iq2nl_values);
+    int sumi2 = ggml_cuda_dp4a(v2.x, q8_2[1], ggml_cuda_dp4a(v1.x, q8_2[0], 0)) * s8[1];
+    int sumi4 = ggml_cuda_dp4a(v2.y, q8_4[1], ggml_cuda_dp4a(v1.y, q8_4[0], 0)) * s8[3];
+
+#else
+
+    const int * all_values = (const int *)iq2k_table;
+    const int * values;
+
+    uint32_t val1 = q2[0], val2 = q2[1];
+
+    uint32_t aux32[2];
+    int v1, v2;
+
+    aux32[0] = ((val1 >> 0) & 0x03030303); aux32[1] = ((val2 >> 0) & 0x03030303); values = all_values + ((extra & 0x01) << 8);
+    v1 = int_from_table_4(aux32[0], values);
+    v2 = int_from_table_4(aux32[1], values);
+    int sumi1 = ggml_cuda_dp4a(v2, q8_1[1], ggml_cuda_dp4a(v1, q8_1[0], 0)) * s8[0];
+
+    aux32[0] = ((val1 >> 2) & 0x03030303); aux32[1] = ((val2 >> 2) & 0x03030303); values = all_values + ((extra & 0x04) << 6);
+    v1 = int_from_table_4(aux32[0], values);
+    v2 = int_from_table_4(aux32[1], values);
+    int sumi2 = ggml_cuda_dp4a(v2, q8_2[1], ggml_cuda_dp4a(v1, q8_2[0], 0)) * s8[1];
+
+    aux32[0] = ((val1 >> 4) & 0x03030303); aux32[1] = ((val2 >> 4) & 0x03030303); values = all_values + ((extra & 0x10) << 4);
+    v1 = int_from_table_4(aux32[0], values);
+    v2 = int_from_table_4(aux32[1], values);
+    int sumi3 = ggml_cuda_dp4a(v2, q8_3[1], ggml_cuda_dp4a(v1, q8_3[0], 0)) * s8[2];
+
+    aux32[0] = ((val1 >> 6) & 0x03030303); aux32[1] = ((val2 >> 6) & 0x03030303); values = all_values + ((extra & 0x40) << 2);
+    v1 = int_from_table_4(aux32[0], values);
+    v2 = int_from_table_4(aux32[1], values);
+    int sumi4 = ggml_cuda_dp4a(v2, q8_4[1], ggml_cuda_dp4a(v1, q8_4[0], 0)) * s8[3];
+#endif
+
+    *result += __half2float(bq2->d) * (__low2float(bq8_1[4*(i4/4)+0].ds) * sumi1
+                                    +  __low2float(bq8_1[4*(i4/4)+1].ds) * sumi2
+                                    +  __low2float(bq8_1[4*(i4/4)+2].ds) * sumi3
+                                    +  __low2float(bq8_1[4*(i4/4)+3].ds) * sumi4);
+}
+
 void mul_mat_vec_iq2_k_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ2_K, VDR_IQ2_K_Q8_1_MMVQ, vec_dot_iq2_k_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_k_r4.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_k_r4.cu
@@ -1,5 +1,65 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq2_k_r4_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    const block_iq2_k_r4 * bq2 = (const block_iq2_k_r4 *)vbq + kbx;
+
+    // iqs is 0...30 in steps of 2
+    const int ib16 = iqs/2;
+    const float d8 = __low2float(bq8_1[ib16/2].ds);
+    const int32_t  * q8 = (const int *)bq8_1[ib16/2].qs + 4*(ib16%2);
+
+    int ib32 = ib16/2;
+    int is   = ib16%2;
+    const int * scales_l = (const int *)bq2->scales;
+
+    int scales = __vsub4(((scales_l[2*(ib32%4)+is] >> 4*(ib32/4)) & 0x0f0f0f0f), 0x08080808);
+    const int8_t * s8 = (const int8_t *)&scales;
+
+    const int * q2 = (const int *)bq2->qs + 8*ib32 + 4*is;
+
+#ifdef __CUDA_ARCH__
+
+#pragma unroll
+    for (int i = 0; i < 4; ++i) {
+        uint32_t extra32 = uint32_t((bq2->extra[i+4*is] >> ib32) & 1) * 0x04040404;
+        extra32 |= (extra32 << 4);
+        uint32_t val1 = ((q2[i] >> 0) & 0x33333333) | extra32;
+        uint32_t val2 = ((q2[i] >> 2) & 0x33333333) | extra32;
+        int2 v1 = get_int_from_table_8(val1, iq2nl_values);
+        int2 v2 = get_int_from_table_8(val2, iq2nl_values);
+        int sumi = 0;
+        sumi = ggml_cuda_dp4a(v1.x, q8[0], ggml_cuda_dp4a(v2.x, q8[1], sumi));
+        sumi = ggml_cuda_dp4a(v1.y, q8[2], ggml_cuda_dp4a(v2.y, q8[3], sumi));
+        const float d = __half2float(bq2->d[i]) * d8;
+        result[i] += d * sumi * s8[i];
+    }
+
+#else
+    const int * all_values = (const int *)iq2k_table;
+    int2 val1;
+    int aux32[2];
+#pragma unroll
+    for (int i = 0; i < 4; ++i) {
+        auto values1 = all_values + (((bq2->extra[i+4*is] >> ib32) & 1) << 8);
+        int sumi1 = 0;
+        aux32[0] = ((q2[i] >> 0) & 0x03030303);
+        aux32[1] = ((q2[i] >> 2) & 0x03030303);
+        val1.x  = int_from_table_4(aux32[0], values1);
+        val1.y  = int_from_table_4(aux32[1], values1);
+        sumi1 = ggml_cuda_dp4a(val1.x, q8[0], ggml_cuda_dp4a(val1.y, q8[1], sumi1));
+        aux32[0] = ((q2[i] >> 4) & 0x03030303);
+        aux32[1] = ((q2[i] >> 6) & 0x03030303);
+        val1.x  = int_from_table_4(aux32[0], values1);
+        val1.y  = int_from_table_4(aux32[1], values1);
+        sumi1 = ggml_cuda_dp4a(val1.x, q8[2], ggml_cuda_dp4a(val1.y, q8[3], sumi1));
+        const float d = __half2float(bq2->d[i]) * d8;
+        result[i] += d * sumi1 * s8[i];
+    }
+#endif
+}
+
 void mul_mat_vec_iq2_k_r4_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ2_K_R4, 2, vec_dot_iq2_k_r4_q8_1, 4>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_kl.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_kl.cu
@@ -1,5 +1,50 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq2_kl_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iiqs, float * result) {
+
+    float d = __half2float(*(const half *)vbq);
+    const block_iq2_kl * bq2 = (const block_iq2_kl *)((const char *)vbq + sizeof(half)) + kbx;
+
+    int iqs = iiqs/4;
+    const int ib64 = iqs/2;  // 0...3. 0 works on quants 0...63, 1 on quants 64...127, etc.
+                             // Each thread processes 16 quants in each of the 2 32-blocks
+    const int il16 = iqs%2;  // 0...3. 0 works on quants 0...7, 1 on quants 8...15, 2 on 16...23, 3 on 24...31
+
+    const uint16_t * ql = (const uint16_t *)bq2->qs + 8*ib64 + 4*il16;
+    const uint16_t * qh = (const uint16_t *)bq2->qh + 4*il16;
+
+    int32_t aux32;
+    const uint8_t * aux8 = (const uint8_t *)&aux32;
+
+    const int * q8l = (const int *)bq8_1[2*ib64+0].qs + 4*il16;
+    const int * q8h = (const int *)bq8_1[2*ib64+1].qs + 4*il16;
+
+    int sumi1 = 0, sumi2 = 0;
+    int v1, v2;
+    for (int i = 0; i < 2; ++i) {
+        uint32_t vl =  ql[2*i+0] | (ql[2*i+1] << 16);
+        uint32_t vh = (qh[2*i+0] | (qh[2*i+1] << 16)) >> 2*ib64;
+
+        aux32 = (vl & 0x0f0f0f0f) | ((vh << 4) & 0x10101010);
+        v1 = iq2kl_values[aux8[0]] | (iq2kl_values[aux8[1]] << 16);
+        v2 = iq2kl_values[aux8[2]] | (iq2kl_values[aux8[3]] << 16);
+        sumi1 = ggml_cuda_dp4a(v1, q8l[2*i+0], ggml_cuda_dp4a(v2, q8l[2*i+1], sumi1));
+
+        aux32 = ((vl >> 4) & 0x0f0f0f0f) | ((vh << 3) & 0x10101010);
+        v1 = iq2kl_values[aux8[0]] | (iq2kl_values[aux8[1]] << 16);
+        v2 = iq2kl_values[aux8[2]] | (iq2kl_values[aux8[3]] << 16);
+        sumi2 = ggml_cuda_dp4a(v1, q8h[2*i+0], ggml_cuda_dp4a(v2, q8h[2*i+1], sumi2));
+    }
+
+    auto sh = bq2->scales_h >> 4*ib64;
+    int ls1 = int(((bq2->scales_l[(2*ib64+0)%4] >> 4*(ib64/2)) & 0xf) | ((sh << 4) & 0x30)) - 32;
+    int ls2 = int(((bq2->scales_l[(2*ib64+1)%4] >> 4*(ib64/2)) & 0xf) | ((sh << 2) & 0x30)) - 32;
+
+    *result += d * (__low2float(bq8_1[2*ib64+0].ds) * ls1 * sumi1 + __low2float(bq8_1[2*ib64+1].ds) * ls2 * sumi2);
+
+}
+
 void mul_mat_vec_iq2_kl_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ2_KL, VDR_IQ3_K_Q8_1_MMVQ, vec_dot_iq2_kl_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_ks.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_ks.cu
@@ -1,5 +1,86 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq2_ks_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    float scale = *(const half *)vbq;
+    const block_iq2_ks * bq2 = (const block_iq2_ks *)((const char *)vbq + sizeof(half)) + kbx;
+
+    int i4 = iqs/4;  // 0...7. We will process q8 blocks 4*(i4/4), 4*(i4/4)+1, 4*(i4/4)+2, 4*(i4/4)+3
+    const int32_t  * q8_1 = (const int *)bq8_1[4*(i4/4)+0].qs + 2*(i4%4);
+    const int32_t  * q8_2 = (const int *)bq8_1[4*(i4/4)+1].qs + 2*(i4%4);
+    const int32_t  * q8_3 = (const int *)bq8_1[4*(i4/4)+2].qs + 2*(i4%4);
+    const int32_t  * q8_4 = (const int *)bq8_1[4*(i4/4)+3].qs + 2*(i4%4);
+
+    const uint16_t * q2 = (const uint16_t *)bq2->qs + 16*(i4/4) + 4*(i4%4);
+    const uint16_t extra = bq2->extra >> 4*(i4/4);
+
+    uint32_t val1 = q2[0] | (q2[1] << 16), val2 = q2[2] | (q2[3] << 16);
+
+    int32_t scales32;
+    const uint16_t * scales16 = (const uint16_t *)bq2->scales;
+    scales32 = __vsub4((scales16[i4/4] | (scales16[i4/4] << 12)) & 0x0f0f0f0f, 0x10101010);
+    int8_t * s8 = (int8_t *)&scales32;
+    s8[0] += ((extra >> 4) & 0x10);
+    s8[1] += ((extra >> 6) & 0x10);
+    s8[2] += ((extra >> 5) & 0x10);
+    s8[3] += ((extra >> 7) & 0x10);
+
+#ifdef __CUDA_ARCH__
+
+    uint32_t extra32 = uint32_t(extra & 0xf) * 0x01010101;
+
+    uint32_t this_extra = ((extra32 << 2) & 0x04040404) | ((extra32 << 4) & 0x40404040);
+    uint32_t idx1 = ((val1 >> 0) & 0x33333333) | this_extra;
+    uint32_t idx2 = ((val2 >> 0) & 0x33333333) | this_extra;
+    int2 v1 = get_int_from_table_8(idx1, iq2nl_values);
+    int2 v2 = get_int_from_table_8(idx2, iq2nl_values);
+
+    int sumi1 = ggml_cuda_dp4a(v2.x, q8_1[1], ggml_cuda_dp4a(v1.x, q8_1[0], 0)) * s8[0];
+    int sumi3 = ggml_cuda_dp4a(v2.y, q8_3[1], ggml_cuda_dp4a(v1.y, q8_3[0], 0)) * s8[1];
+
+    this_extra = ((extra32 << 1) & 0x04040404) | ((extra32 << 3) & 0x40404040);
+    idx1 = ((val1 >> 2) & 0x33333333) | this_extra;
+    idx2 = ((val2 >> 2) & 0x33333333) | this_extra;
+    v1 = get_int_from_table_8(idx1, iq2nl_values);
+    v2 = get_int_from_table_8(idx2, iq2nl_values);
+
+    int sumi2 = ggml_cuda_dp4a(v2.x, q8_2[1], ggml_cuda_dp4a(v1.x, q8_2[0], 0)) * s8[2];
+    int sumi4 = ggml_cuda_dp4a(v2.y, q8_4[1], ggml_cuda_dp4a(v1.y, q8_4[0], 0)) * s8[3];
+
+#else
+    uint32_t aux32[2];
+    int v1, v2;
+    const int * all_values = (const int *)iq2k_table;
+    const int * values;
+
+    aux32[0] = ((val1 >> 0) & 0x03030303); aux32[1] = ((val2 >> 0) & 0x03030303); values = all_values + ((extra & 0x01) << 8);
+    v1 = int_from_table_4(aux32[0], values);
+    v2 = int_from_table_4(aux32[1], values);
+    int sumi1 = ggml_cuda_dp4a(v2, q8_1[1], ggml_cuda_dp4a(v1, q8_1[0], 0)) * s8[0];
+
+    aux32[0] = ((val1 >> 2) & 0x03030303); aux32[1] = ((val2 >> 2) & 0x03030303); values = all_values + ((extra & 0x02) << 7);
+    v1 = int_from_table_4(aux32[0], values);
+    v2 = int_from_table_4(aux32[1], values);
+    int sumi2 = ggml_cuda_dp4a(v2, q8_2[1], ggml_cuda_dp4a(v1, q8_2[0], 0)) * s8[2];
+
+    aux32[0] = ((val1 >> 4) & 0x03030303); aux32[1] = ((val2 >> 4) & 0x03030303); values = all_values + ((extra & 0x04) << 6);
+    v1 = int_from_table_4(aux32[0], values);
+    v2 = int_from_table_4(aux32[1], values);
+    int sumi3 = ggml_cuda_dp4a(v2, q8_3[1], ggml_cuda_dp4a(v1, q8_3[0], 0)) * s8[1];
+
+    aux32[0] = ((val1 >> 6) & 0x03030303); aux32[1] = ((val2 >> 6) & 0x03030303); values = all_values + ((extra & 0x08) << 5);
+    v1 = int_from_table_4(aux32[0], values);
+    v2 = int_from_table_4(aux32[1], values);
+    int sumi4 = ggml_cuda_dp4a(v2, q8_4[1], ggml_cuda_dp4a(v1, q8_4[0], 0)) * s8[3];
+#endif
+
+    *result += scale * (__low2float(bq8_1[4*(i4/4)+0].ds) * sumi1
+                     +  __low2float(bq8_1[4*(i4/4)+1].ds) * sumi2
+                     +  __low2float(bq8_1[4*(i4/4)+2].ds) * sumi3
+                     +  __low2float(bq8_1[4*(i4/4)+3].ds) * sumi4);
+}
+
 void mul_mat_vec_iq2_ks_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ2_KS, VDR_IQ2_KS_Q8_1_MMVQ, vec_dot_iq2_ks_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_kt.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq2_kt.cu
@@ -1,5 +1,39 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq2_kt_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    constexpr uint32_t ka = 0xCBAC1FED;
+    constexpr uint32_t km = 0x3f3f3f3f;
+
+    float scale = *(const float *)vbq;
+    const block_iq2_kt * bq2 = (const block_iq2_kt *)((const char *)vbq + sizeof(float)) + kbx;
+
+    // iqs is 0...28
+    const int ib32 = iqs/4;
+    const int32_t  * q8 = (const int *)bq8_1[ib32].qs;
+    const int ls = iq4k_values[(bq2->scales[ib32%4] >> 4*(ib32/4)) & 0xf];
+    const float dl = scale * ls * 1.05f;
+    auto ql = (const uint16_t *)bq2->ql;
+    int sumi = 0;
+    for (int j = 0; j < 4; ++j) {
+        uint32_t val = ql[4*ib32+j] + 4096;
+        int v4 = 0;
+        for (int k = 0; k < 4; ++k) {
+            val *= ka;
+            v4 |= (ggml_cuda_dp4a(val & km, 0x01010101, -126) & 0xff) << 8*k;
+        }
+        sumi = ggml_cuda_dp4a(v4, q8[2*j+0], sumi);
+        v4 = 0;
+        for (int k = 0; k < 4; ++k) {
+            val *= ka;
+            v4 |= (ggml_cuda_dp4a(val & km, 0x01010101, -126) & 0xff) << 8*k;
+        }
+        sumi = ggml_cuda_dp4a(v4, q8[2*j+1], sumi);
+    }
+    *result += dl * __low2float(bq8_1[ib32].ds) * sumi;
+}
+
 void mul_mat_vec_iq2_kt_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ2_KT, VDR_IQ4_KS_Q8_1_MMVQ, vec_dot_iq2_kt_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq3_k.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq3_k.cu
@@ -1,5 +1,62 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq3_k_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iiqs, float * result) {
+    const block_iq3_k * bq3 = (const block_iq3_k *) vbq + kbx;
+
+    int iqs = iiqs/4;
+    const int ib128 = iqs/4;  // 0 or 1. 0 works on quants 0...127, 1 on quants 128...255
+                              // Each thread processes 8 quants in each of the 4 32-blocks
+    const int il8   = iqs%4;  // 0...3. 0 works on quants 0...7, 1 on quants 8...15, 2 on 16...23, 3 on 24...31
+    const int shift = 4*(il8/2);
+
+    const uint16_t * ql = (const uint16_t *)bq3->qs + 16*ib128 + 4*il8;
+    const uint16_t * qh = (const uint16_t *)bq3->qh + 4*il8;
+
+    uint32_t aux32;
+    const uint8_t * aux8 = (const uint8_t *)&aux32;
+
+    const int hshift = 4*(1-ib128);
+    const uint16_t sh = bq3->scales_h >> (8*ib128 + il8/2);
+
+    const uint8_t extra = bq3->extra >> (8*ib128 + il8/2);
+    uint32_t extra32 = uint32_t(extra) * 0x01010101;
+    uint32_t extra32_1 = ((extra32 << 3) & 0x08080808) | ((extra32 << 5) & 0x80808080);
+    uint32_t extra32_2 = ((extra32 << 2) & 0x08080808) | ((extra32 << 4) & 0x80808080);
+
+    const int * q8;
+    int sumi[4] = {0, 0, 0, 0};
+    for (int i = 0; i < 2; ++i) {
+        uint32_t vl = ql[2*i+0] | (ql[2*i+1] << 16);
+        uint32_t vh = ((qh[2*i+0] | (qh[2*i+1] << 16)) << hshift);
+
+        uint32_t val1 = ((vl >> 0) & 0x33333333) | extra32_1 | ((vh >> 2) & 0x04040404) | ((vh >> 0) & 0x40404040);
+        uint32_t val2 = ((vl >> 2) & 0x33333333) | extra32_2 | ((vh >> 3) & 0x04040404) | ((vh >> 1) & 0x40404040);
+        int2 v1 = get_int_from_table_16(val1, iq3nl_values);
+        int2 v2 = get_int_from_table_16(val2, iq3nl_values);
+
+        q8 = (const int *)bq8_1[4*ib128+0].qs + 2*il8;
+        sumi[0] = ggml_cuda_dp4a(v1.x, q8[i], sumi[0]);
+
+        q8 += sizeof(block_q8_1)/4;
+        sumi[1] = ggml_cuda_dp4a(v2.x, q8[i], sumi[1]);
+
+        q8 += sizeof(block_q8_1)/4;
+        sumi[2] = ggml_cuda_dp4a(v1.y, q8[i], sumi[2]);
+
+        q8 += sizeof(block_q8_1)/4;
+        sumi[3] = ggml_cuda_dp4a(v2.y, q8[i], sumi[3]);
+    }
+    const float d = __half2float(bq3->d);
+    const uint16_t * sl16 = (const uint16_t *)bq3->scales_l + 2*ib128;
+    aux32 = ((((sl16[0] | (sl16[1] << 16)) >> shift) & 0x0f0f0f0f) << 1) | 0x01010101;
+    *result += d * (__low2float(bq8_1[4*ib128+0].ds) * aux8[0] * (sh & 0x01 ? -1 : 1) * sumi[0] +
+                    __low2float(bq8_1[4*ib128+1].ds) * aux8[1] * (sh & 0x04 ? -1 : 1) * sumi[1] +
+                    __low2float(bq8_1[4*ib128+2].ds) * aux8[2] * (sh & 0x10 ? -1 : 1) * sumi[2] +
+                    __low2float(bq8_1[4*ib128+3].ds) * aux8[3] * (sh & 0x40 ? -1 : 1) * sumi[3]);
+
+}
+
 void mul_mat_vec_iq3_k_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ3_K, VDR_IQ3_K_Q8_1_MMVQ, vec_dot_iq3_k_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq3_k_4.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq3_k_4.cu
@@ -1,6 +0,0 @@
-#include "../iqk_mmvq_templates.cuh"
-
-void mul_mat_vec_iq3_k_r4_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
-    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ3_K_R4, 2, vec_dot_iq3_k_r4_q8_1, 4>(args, stream);
-}
-
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq3_k_r4.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq3_k_r4.cu
@@ -0,0 +1,46 @@
+#include "../iqk_mmvq_templates.cuh"
+
+__device__ __forceinline__ void vec_dot_iq3_k_r4_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    const block_iq3_k_r4 * bq3 = (const block_iq3_k_r4 *)vbq + kbx;
+
+    // iqs is 0...30 in steps of 2
+    const int ib16 = iqs/2;
+    const float d8 = __low2float(bq8_1[ib16/2].ds);
+    const int32_t  * q8 = (const int *)bq8_1[ib16/2].qs + 4*(ib16%2);
+
+    int ib32 = ib16/2;
+    int is   = ib16%2;
+    int scales[2];
+    const uint32_t * scales_l = (const uint32_t *)bq3->scales_l;
+    const uint32_t * scales_h = (const uint32_t *)bq3->scales_h;
+
+    scales[0] = (((scales_l[2*(ib32%4)+is] >> 4*(ib32/4)) & 0x0f0f0f0f) << 1) | 0x01010101;
+    scales[1] = (scales_h[is] >> ib32) & 0x01010101;
+    // This is not faster. Why?
+    //scales[1] = __vcmpeq4((scales_h[is] >> ib32) & 0x01010101, 0x01010101);
+    //scales[0] = __vsub4(scales[0] ^ scales[1], scales[1]);
+    const int8_t * s8 = (const int8_t *)scales;
+    const uint32_t * q2 = (const uint32_t *)bq3->qs + 8*ib32 + 4*is;
+    const uint32_t * qh = (const uint32_t *)bq3->qh + 4*ib32;
+    for (int i = 0; i < 4; ++i) {
+        uint32_t extra32 = uint32_t((bq3->extra[i+4*is] >> ib32) & 1) * 0x88888888;
+
+        int sumi1 = 0; 
+        uint32_t h = qh[i] >> 4*is;
+        uint32_t val1 = ((q2[i] >> 0) & 0x33333333) | extra32 | ((h << 2) & 0x04040404) | ((h << 4) & 0x40404040);
+        uint32_t val2 = ((q2[i] >> 2) & 0x33333333) | extra32 | ((h << 1) & 0x04040404) | ((h << 3) & 0x40404040);
+        int2 v1 = get_int_from_table_16(val1, iq3nl_values);
+        int2 v2 = get_int_from_table_16(val2, iq3nl_values);
+        sumi1 = ggml_cuda_dp4a(v1.x, q8[0], ggml_cuda_dp4a(v2.x, q8[1], sumi1));
+        sumi1 = ggml_cuda_dp4a(v1.y, q8[2], ggml_cuda_dp4a(v2.y, q8[3], sumi1));
+        const float d = __half2float(bq3->d[i]) * d8;
+        result[i] += d * sumi1 * s8[i] * (s8[i+4] ? -1 : 1);
+    }
+}
+
+void mul_mat_vec_iq3_k_r4_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
+    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ3_K_R4, 2, vec_dot_iq3_k_r4_q8_1, 4>(args, stream);
+}
+
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq3_ks.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq3_ks.cu
@@ -1,5 +1,58 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq3_ks_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iiqs, float * result) {
+
+    float d = __half2float(*(const half *)vbq);
+    const block_iq3_ks * bq3 = (const block_iq3_ks *)((const char *)vbq + sizeof(half)) + kbx;
+
+    int iqs = iiqs/4;
+    const int ib128 = iqs/4;  // 0 or 1. 0 works on quants 0...127, 1 on quants 128...255
+                              // Each thread processes 8 quants in each of the 4 32-blocks
+    const int il8   = iqs%4;  // 0...3. 0 works on quants 0...7, 1 on quants 8...15, 2 on 16...23, 3 on 24...31
+
+    const uint16_t * ql = (const uint16_t *)bq3->qs + 16*ib128 + 4*il8;
+    const uint16_t * qh = (const uint16_t *)bq3->qh + 4*il8;
+
+    uint16_t extra = bq3->extra >> 4*ib128;
+    uint32_t extra_v = uint32_t(extra >> 8) * 0x01010101;
+
+    uint32_t extra32_1 = ((extra_v << 3) & 0x08080808) | ((extra_v << 5) & 0x80808080);
+    uint32_t extra32_2 = ((extra_v << 2) & 0x08080808) | ((extra_v << 4) & 0x80808080);
+
+    const int * q8;
+    int sumi[4] = {0, 0, 0, 0};
+    for (int i = 0; i < 2; ++i) {
+        uint32_t vl = ql[2*i+0] | (ql[2*i+1] << 16);
+        uint32_t vh = ((qh[2*i+0] | (qh[2*i+1] << 16)) >> 4*ib128);
+
+        uint32_t val1 = ((vl >> 0) & 0x33333333) | extra32_1 | ((vh << 2) & 0x04040404) | ((vh << 4) & 0x40404040);
+        uint32_t val2 = ((vl >> 2) & 0x33333333) | extra32_2 | ((vh << 1) & 0x04040404) | ((vh << 3) & 0x40404040);
+        int2 v1 = get_int_from_table_16(val1, iq3nl_values);
+        int2 v2 = get_int_from_table_16(val2, iq3nl_values);
+
+        q8 = (const int *)bq8_1[4*ib128+0].qs + 2*il8;
+        sumi[0] = ggml_cuda_dp4a(v1.x, q8[i], sumi[0]);
+
+        q8 += sizeof(block_q8_1)/4;
+        sumi[1] = ggml_cuda_dp4a(v2.x, q8[i], sumi[1]);
+
+        q8 += sizeof(block_q8_1)/4;
+        sumi[2] = ggml_cuda_dp4a(v1.y, q8[i], sumi[2]);
+
+        q8 += sizeof(block_q8_1)/4;
+        sumi[3] = ggml_cuda_dp4a(v2.y, q8[i], sumi[3]);
+    }
+    const uint16_t * sl16 = (const uint16_t *)bq3->scales;
+    int32_t aux32 = __vsub4(((sl16[0] | (sl16[1] << 16)) >> 4*ib128) & 0x0f0f0f0f, 0x10101010);
+    const int8_t * a8 = (const int8_t *)&aux32;
+    *result += d * (__low2float(bq8_1[4*ib128+0].ds) * (a8[0] + ((extra << 4) & 0x10)) * sumi[0] +
+                    __low2float(bq8_1[4*ib128+1].ds) * (a8[1] + ((extra << 3) & 0x10)) * sumi[1] +
+                    __low2float(bq8_1[4*ib128+2].ds) * (a8[2] + ((extra << 2) & 0x10)) * sumi[2] +
+                    __low2float(bq8_1[4*ib128+3].ds) * (a8[3] + ((extra << 1) & 0x10)) * sumi[3]);
+
+}
+
 void mul_mat_vec_iq3_ks_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ3_KS, VDR_IQ3_K_Q8_1_MMVQ, vec_dot_iq3_ks_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq3_kt.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq3_kt.cu
@@ -1,5 +1,47 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq3_kt_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    constexpr uint32_t ka = 0xCBAC1FED;
+    constexpr uint32_t km = 0x3f3f3f3f;
+
+    float scale = *(const float *)vbq;
+    const block_iq3_kt * bq3 = (const block_iq3_kt *)((const char *)vbq + sizeof(float)) + kbx;
+
+    // iqs is 0...28
+    const int ib32 = iqs/4;
+    const int32_t  * q8 = (const int *)bq8_1[ib32].qs;
+    const int ls = (bq3->scales[ib32%4] >> 4*(ib32/4)) & 0xf;
+    const float dl = scale * ls * 1.015f;
+    auto ql = (const uint16_t *)bq3->ql;
+    uint32_t mask = 0x01010101 << ib32;
+    const uint32_t * qh = (const uint32_t *)bq3->qh;
+    int sumi = 0;
+    for (int j = 0; j < 4; ++j) {
+        uint32_t val = ql[4*ib32+j] + 4096;
+        int v4 = 0;
+        for (int k = 0; k < 4; ++k) {
+            val *= ka;
+            int8_t q = std::abs(ggml_cuda_dp4a(val & km, 0x01010101, -126));
+            v4 |= q << 8*k;
+        }
+        uint32_t signs = __vcmpne4(qh[2*j+0] & mask, 0);
+        v4 = __vsub4(v4 ^ signs, signs);
+        sumi = ggml_cuda_dp4a(v4, q8[2*j+0], sumi);
+        v4 = 0;
+        for (int k = 0; k < 4; ++k) {
+            val *= ka;
+            int8_t q = std::abs(ggml_cuda_dp4a(val & km, 0x01010101, -126));
+            v4 |= q << 8*k;
+        }
+        signs = __vcmpne4(qh[2*j+1] & mask, 0);
+        v4 = __vsub4(v4 ^ signs, signs);
+        sumi = ggml_cuda_dp4a(v4, q8[2*j+1], sumi);
+    }
+    *result += dl * __low2float(bq8_1[ib32].ds) * sumi;
+}
+
 void mul_mat_vec_iq3_kt_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ3_KT, VDR_IQ4_KS_Q8_1_MMVQ, vec_dot_iq3_kt_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_k.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_k.cu
@@ -1,5 +1,32 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq4_k_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    const block_iq4_k * bq4 = (const block_iq4_k *) vbq + kbx;
+    const uint8_t * all_values = (const uint8_t *)iq4k_values;
+
+    // iqs is 0...28
+    const int ib32 = iqs/4;
+    // Why iqs/4 ?
+    const int32_t  * q8 = (const int *)bq8_1[ib32].qs;
+    const uint16_t * q4 = (const uint16_t *)bq4->qs + 8*ib32;
+    const uint16_t extra = bq4->extra >> 2*ib32;
+    int v1, v2;
+    int sumi1 = 0, sumi2 = 0;
+    for (int j = 0; j < 4; ++j) {
+        const uint32_t aux32 = q4[2*j+0] | (q4[2*j+1] << 16);
+        get_int_from_table_16_shift(aux32, extra, all_values, v1, v2);
+        sumi1 = ggml_cuda_dp4a(v1, q8[j+0], sumi1);
+        sumi2 = ggml_cuda_dp4a(v2, q8[j+4], sumi2);
+    }
+    const float d = __half2float(bq4->d) * __low2float(bq8_1[ib32].ds);
+    const uint8_t sh = bq4->scales_h[ib32/2] >> 4*(ib32%2);
+    const int ls1 = ((bq4->scales_l[ib32] & 0xf) | ((sh << 4) & 0x30)) - 32;
+    const int ls2 = ((bq4->scales_l[ib32] >>  4) | ((sh << 2) & 0x30)) - 32;
+    *result += d * (sumi1 * ls1 + sumi2 * ls2);
+}
+
 void mul_mat_vec_iq4_k_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ4_K, VDR_IQ4_K_Q8_1_MMVQ, vec_dot_iq4_k_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_k_r4.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_k_r4.cu
@@ -1,5 +1,36 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq4_k_r4_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    const block_iq4_k_r4 * bq4 = (const block_iq4_k_r4 *)vbq + kbx;
+
+    // iqs is 0...28 in steps of 2
+    const int ib16 = iqs/2;
+    const float d8 = __low2float(bq8_1[ib16/2].ds);
+    const int32_t  * q8 = (const int *)bq8_1[ib16/2].qs + 4*(ib16%2);
+
+    int ib32 = ib16/2;
+    int is   = ib16%2;
+    int scales;
+    const uint32_t * scales_l = (const uint32_t *)bq4->scales_l;
+    const uint32_t * scales_h = (const uint32_t *)bq4->scales_h;
+    scales = __vsub4(((scales_l[2*(ib32%4)+is] >> 4*(ib32/4)) & 0x0f0f0f0f) | (((scales_h[2*(ib32%2)+is] >> 2*(ib32/2)) & 0x03030303) << 4), 0x20202020);
+    const int8_t * s8 = (const int8_t *)&scales;
+    int2 val1;
+    const int * q4 = (const int *)bq4->qs + 16*ib32;
+    for (int i = 0; i < 4; ++i) {
+        auto values1 = iq4k_values + (((bq4->extra[i+4*is] >> ib32) & 1) << 4);
+        int sumi1 = 0;
+        val1  = get_int_from_table_16(q4[i+4*is+0], values1);
+        sumi1 = ggml_cuda_dp4a(val1.x, q8[0], ggml_cuda_dp4a(val1.y, q8[2], sumi1));
+        val1  = get_int_from_table_16(q4[i+4*is+8], values1);
+        sumi1 = ggml_cuda_dp4a(val1.x, q8[1], ggml_cuda_dp4a(val1.y, q8[3], sumi1));
+        const float d = __half2float(bq4->d[i]) * d8;
+        result[i] += d * sumi1 * s8[i];
+    }
+}
+
 void mul_mat_vec_iq4_k_r4_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ4_K_R4, 2, vec_dot_iq4_k_r4_q8_1, 4>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_ks.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_ks.cu
@@ -1,5 +1,26 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq4_ks_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    float scale = *(const float *)vbq;
+    const block_iq4_ks * bq4 = (const block_iq4_ks *)((const char *)vbq + sizeof(float)) + kbx;
+
+    // iqs is 0...28
+    const int ib32 = iqs/4; // Why iqs/4 ?
+    const int32_t  * q8 = (const int *)bq8_1[ib32].qs;
+    const uint32_t * q4 = (const uint32_t *)bq4->qs + 4*ib32;
+    const float dl = scale * ((bq4->scales[ib32] & 254) - 127);
+    auto values = iq4k_values + ((bq4->scales[ib32] & 1) << 4);
+    int sumi = 0;
+    for (int j = 0; j < 4; ++j) {
+        auto v = get_int_from_table_16(q4[j], values);
+        sumi = ggml_cuda_dp4a(v.x, q8[j+0], sumi);
+        sumi = ggml_cuda_dp4a(v.y, q8[j+4], sumi);
+    }
+    *result += dl * __low2float(bq8_1[ib32].ds) * sumi;
+}
+
 void mul_mat_vec_iq4_ks_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ4_KS, VDR_IQ4_KS_Q8_1_MMVQ, vec_dot_iq4_ks_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_ks_r4.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_ks_r4.cu
@@ -1,5 +1,35 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq4_ks_r4_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    const float * dptr = (const float *)vbq;
+    const block_iq4_ks_r4 * bq4 = (const block_iq4_ks_r4 *)(dptr + 4) + kbx;
+
+    // iqs is 0...28 in steps of 2
+    const int ib16 = iqs/2;
+    const float d8 = __low2float(bq8_1[ib16/2].ds);
+    const int32_t  * q8 = (const int *)bq8_1[ib16/2].qs + 4*(ib16%2);
+
+    int ib32 = ib16/2;
+    int is   = ib16%2;
+    const uint32_t * scales32 = (const uint32_t *)bq4->scales;
+    int scales = __vsub4(scales32[ib32] & 0xfefefefe, 0x7f7f7f7f);
+    const int8_t * s8 = (const int8_t *)&scales;
+    int2 val;
+    const int * q4 = (const int *)bq4->qs + 16*ib32;
+    for (int i = 0; i < 4; ++i) {
+        auto values = iq4k_values + ((bq4->scales[4*ib32+i] & 1) << 4);
+        int sumi = 0;
+        val  = get_int_from_table_16(q4[i+4*is+0], values);
+        sumi = ggml_cuda_dp4a(val.x, q8[0], ggml_cuda_dp4a(val.y, q8[2], sumi));
+        val  = get_int_from_table_16(q4[i+4*is+8], values);
+        sumi = ggml_cuda_dp4a(val.x, q8[1], ggml_cuda_dp4a(val.y, q8[3], sumi));
+        const float d = dptr[i] * d8;
+        result[i] += d * sumi * s8[i];
+    }
+}
+
 void mul_mat_vec_iq4_ks_r4_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ4_KS_R4, 2, vec_dot_iq4_ks_r4_q8_1, 4>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_kss.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_kss.cu
@@ -1,5 +1,30 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq4_kss_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    float scale = *(const float *)vbq;
+    const block_iq4_kss * bq4 = (const block_iq4_kss *)((const char *)vbq + sizeof(float)) + kbx;
+
+    // iqs is 0...28
+    const int ib32 = iqs/4; // Why iqs/4 ?
+    const int32_t  * q8 = (const int *)bq8_1[ib32].qs;
+    const uint32_t * q4 = (const uint32_t *)bq4->qs + 4*ib32;
+    uint32_t s32 = (q4[0] & 0x00010001) | ((q4[1] & 0x00010001) << 2) | ((q4[2] & 0x00010001) << 4) | ((q4[3] & 0x00010001) << 6);
+    uint8_t ls = (s32 | (s32 >> 15)) & 0xff;
+    const float dl = scale * ((ls & 254) - 127);
+    auto values = iq4k_values + ((ls & 1) << 4);
+    int sumi = 0;
+    for (int j = 0; j < 4; ++j) {
+        uint32_t aux32 = q4[j] & 0xfffefffe;
+        aux32 ^= (aux32 >> 1);
+        auto v = get_int_from_table_16(aux32, values);
+        sumi = ggml_cuda_dp4a(v.x, q8[j+0], sumi);
+        sumi = ggml_cuda_dp4a(v.y, q8[j+4], sumi);
+    }
+    *result += dl * __low2float(bq8_1[ib32].ds) * sumi;
+}
+
 void mul_mat_vec_iq4_kss_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ4_KSS, VDR_IQ4_KSS_Q8_1_MMVQ, vec_dot_iq4_kss_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_kt.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq4_kt.cu
@@ -1,5 +1,42 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq4_kt_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    constexpr uint32_t ka = 0xCBAC1FED;
+    constexpr uint32_t km = 0x3f3f3f3f;
+
+    float scale = *(const float *)vbq;
+    const block_iq4_kt * bq4 = (const block_iq4_kt *)((const char *)vbq + sizeof(float)) + kbx;
+
+    // iqs is 0...28
+    const int ib32 = iqs/4; // Why iqs/4 ?
+    const int32_t  * q8 = (const int *)bq8_1[ib32].qs;
+    //const int8_t  * q8 = bq8_1[ib32].qs;
+    const int ls = (bq4->qs[ib32] & 0xff) >> 1;
+    const float dl = scale * (ls - 64);
+    const uint32_t idx0 = ((bq4->qs[ib32] & 1) << 15) + 4096;
+    auto ql = (const uint8_t *)(bq4->qs + 8);
+    auto qh = ql + 64;
+    ql += 8*ib32;
+    qh += 8*(ib32%4);
+    const int shift1 = 8 - 4*(ib32/4);
+    int sumi = 0;
+    for (int j = 0; j < 8; ++j) {
+        const uint32_t sh = bq4->qs[ib32] >> (8 + 3*j);
+        uint32_t val = ql[j] + ((qh[j] << shift1) & 0xf00) + ((sh & 7) << 12) + idx0;
+        int v4 = 0;
+        for (int k = 0; k < 4; ++k) {
+            val *= ka;
+            //int s = val & km;
+            //sumi += q8[4*j+k] * ggml_cuda_dp4a(s, 0x01010101, -126);
+            v4 |= (ggml_cuda_dp4a(val & km, 0x01010101, -126) & 0xff) << 8*k;
+        }
+        sumi = ggml_cuda_dp4a(v4, q8[j], sumi);
+    }
+    *result += dl * __low2float(bq8_1[ib32].ds) * sumi;
+}
+
 void mul_mat_vec_iq4_kt_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ4_KT, VDR_IQ4_KS_Q8_1_MMVQ, vec_dot_iq4_kt_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq5_k.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq5_k.cu
@@ -1,5 +1,40 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq5_k_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    const block_iq5_k * bq5 = (const block_iq5_k *) vbq + kbx;
+    const uint8_t * all_values = (const uint8_t *)iq5nl_values;
+
+    int i4 = iqs/4;  // 0...7.  Blocks of 16 index is 4*(i4/2) + (i4%2) + (0 and 2)
+
+    const int32_t  * q8_1 = (const int *)bq8_1[2*(i4/2)+0].qs + 4*(i4%2);
+    const int32_t  * q8_2 = (const int *)bq8_1[2*(i4/2)+1].qs + 4*(i4%2);
+    const uint32_t * q4 = (const uint32_t *)bq5->qs + 8*(i4/2) + 4*(i4%2);
+    const uint32_t * qh = (const uint32_t *)bq5->qh + 4*(i4%2);
+    const uint16_t extra = bq5->extra >> (4*(i4/2) + (i4%2));
+    const uint8_t * values1 = all_values + 32*(extra & 1);
+    const uint8_t * values2 = all_values +  8*(extra & 4);
+    uint32_t aux32[2];
+    const uint8_t * a8 = (const uint8_t *)aux32;
+    int v1, v2;
+    int sumi1 = 0, sumi2 = 0;
+    for (int j = 0; j < 4; ++j) {
+        uint32_t h = qh[j] >> 2*(i4/2);
+        aux32[0] = ((q4[j] >> 0) & 0x0f0f0f0f) | ((h << 4) & 0x10101010);
+        aux32[1] = ((q4[j] >> 4) & 0x0f0f0f0f) | ((h << 3) & 0x10101010);
+        v1 = int_from_table(a8+0, values1);
+        v2 = int_from_table(a8+4, values2);
+        sumi1 = ggml_cuda_dp4a(v1, q8_1[j], sumi1);
+        sumi2 = ggml_cuda_dp4a(v2, q8_2[j], sumi2);
+    }
+    const float d5 = __half2float(bq5->d);
+    const uint8_t sh = bq5->scales_h[i4/2] >> 2*(i4%2);
+    const int ls1 = (((bq5->scales_l[2*(i4/2)+0] >> 4*(i4%2)) & 0xf) | ((sh << 4) & 0x30)) - 32;
+    const int ls2 = (((bq5->scales_l[2*(i4/2)+1] >> 4*(i4%2)) & 0xf) | ((sh << 0) & 0x30)) - 32;
+    *result += d5 * (__low2float(bq8_1[2*(i4/2)+0].ds) * sumi1 * ls1 + __low2float(bq8_1[2*(i4/2)+1].ds) * sumi2 * ls2);
+}
+
 void mul_mat_vec_iq5_k_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ5_K, VDR_IQ5_K_Q8_1_MMVQ, vec_dot_iq5_k_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq5_k_r4.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq5_k_r4.cu
@@ -1,5 +1,45 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq5_k_r4_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    const block_iq5_k_r4 * bq5 = (const block_iq5_k_r4 *)vbq + kbx;
+
+    // iqs is 0...28 in steps of 2
+    const int ib16 = iqs/2;
+    const float d8 = __low2float(bq8_1[ib16/2].ds);
+    const int32_t  * q8 = (const int *)bq8_1[ib16/2].qs + 4*(ib16%2);
+
+    int ib32 = ib16/2;
+    int is   = ib16%2;
+    int scales;
+    const uint32_t * scales_l = (const uint32_t *)bq5->scales_l;
+    const uint32_t * scales_h = (const uint32_t *)bq5->scales_h;
+    scales = __vsub4(((scales_l[2*(ib32%4)+is] >> 4*(ib32/4)) & 0x0f0f0f0f) | (((scales_h[2*(ib32%2)+is] >> 2*(ib32/2)) & 0x03030303) << 4), 0x20202020);
+    const int8_t * s8 = (const int8_t *)&scales;
+    int2 val1;
+    const int * q4 = (const int *)bq5->qs + 16*ib32;
+    const int * qh = (const int *)bq5->qh +  4*ib32;
+    int aux32[2];
+    const uint8_t * aux8 = (const uint8_t *)aux32;
+    for (int i = 0; i < 4; ++i) {
+        auto values1 = iq5nl_values + (((bq5->extra[i+4*is] >> ib32) & 1) << 5);
+        int sumi1 = 0;
+        aux32[0] = ((q4[i+4*is+0] >> 0) & 0x0f0f0f0f) | (((qh[i] >> (2*is+0)) & 0x01010101) << 4);
+        aux32[1] = ((q4[i+4*is+0] >> 4) & 0x0f0f0f0f) | (((qh[i] >> (2*is+1)) & 0x01010101) << 4);
+        val1.x  = int_from_table(aux8+0, (const uint8_t *)values1);
+        val1.y  = int_from_table(aux8+4, (const uint8_t *)values1);
+        sumi1 = ggml_cuda_dp4a(val1.x, q8[0], ggml_cuda_dp4a(val1.y, q8[2], sumi1));
+        aux32[0] = ((q4[i+4*is+8] >> 0) & 0x0f0f0f0f) | (((qh[i] >> (2*is+4)) & 0x01010101) << 4);
+        aux32[1] = ((q4[i+4*is+8] >> 4) & 0x0f0f0f0f) | (((qh[i] >> (2*is+5)) & 0x01010101) << 4);
+        val1.x  = int_from_table(aux8+0, (const uint8_t *)values1);
+        val1.y  = int_from_table(aux8+4, (const uint8_t *)values1);
+        sumi1 = ggml_cuda_dp4a(val1.x, q8[1], ggml_cuda_dp4a(val1.y, q8[3], sumi1));
+        const float d = __half2float(bq5->d[i]) * d8;
+        result[i] += d * sumi1 * s8[i];
+    }
+}
+
 void mul_mat_vec_iq5_k_r4_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ5_K_R4, 2, vec_dot_iq5_k_r4_q8_1, 4>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq5_ks.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq5_ks.cu
@@ -1,5 +1,38 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq5_ks_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    float scale = *(const float *)vbq;
+    const block_iq5_ks * bq5 = (const block_iq5_ks *)((const char *)vbq + sizeof(float)) + kbx;
+    const uint8_t * all_values = (const uint8_t *)iq5nl_values;
+
+    int i4 = iqs/4;  // 0...7.  Blocks of 16 index is 4*(i4/2) + (i4%2) + (0 and 2)
+
+    const int32_t  * q8_1 = (const int *)bq8_1[2*(i4/2)+0].qs + 4*(i4%2);
+    const int32_t  * q8_2 = (const int *)bq8_1[2*(i4/2)+1].qs + 4*(i4%2);
+    const uint32_t * q4 = (const uint32_t *)bq5->qs + 8*(i4/2) + 4*(i4%2);
+    const uint32_t * qh = (const uint32_t *)bq5->qh + 4*(i4%2);
+    const uint8_t * values1 = all_values + ((bq5->scales[2*(i4/2)+0] & 1) << 5);
+    const uint8_t * values2 = all_values + ((bq5->scales[2*(i4/2)+1] & 1) << 5);
+    uint32_t aux32[2];
+    const uint8_t * a8 = (const uint8_t *)aux32;
+    int v1, v2;
+    int sumi1 = 0, sumi2 = 0;
+    for (int j = 0; j < 4; ++j) {
+        uint32_t h = qh[j] >> 2*(i4/2);
+        aux32[0] = ((q4[j] >> 0) & 0x0f0f0f0f) | ((h << 4) & 0x10101010);
+        aux32[1] = ((q4[j] >> 4) & 0x0f0f0f0f) | ((h << 3) & 0x10101010);
+        v1 = int_from_table(a8+0, values1);
+        v2 = int_from_table(a8+4, values2);
+        sumi1 = ggml_cuda_dp4a(v1, q8_1[j], sumi1);
+        sumi2 = ggml_cuda_dp4a(v2, q8_2[j], sumi2);
+    }
+    const int ls1 = (bq5->scales[2*(i4/2)+0] & 254) - 127;
+    const int ls2 = (bq5->scales[2*(i4/2)+1] & 254) - 127;
+    *result += scale * (__low2float(bq8_1[2*(i4/2)+0].ds) * sumi1 * ls1 + __low2float(bq8_1[2*(i4/2)+1].ds) * sumi2 * ls2);
+}
+
 void mul_mat_vec_iq5_ks_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ5_KS, VDR_IQ5_K_Q8_1_MMVQ, vec_dot_iq5_ks_q8_1>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq5_ks_r4.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq5_ks_r4.cu
@@ -1,5 +1,43 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq5_ks_r4_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    const float * dptr = (const float *)vbq;
+    const block_iq5_ks_r4 * bq5 = (const block_iq5_ks_r4 *)(dptr + 4) + kbx;
+
+    // iqs is 0...28 in steps of 2
+    const int ib16 = iqs/2;
+    const float d8 = __low2float(bq8_1[ib16/2].ds);
+    const int32_t  * q8 = (const int *)bq8_1[ib16/2].qs + 4*(ib16%2);
+
+    int ib32 = ib16/2;
+    int is   = ib16%2;
+    const uint32_t * scales32 = (const uint32_t *)bq5->scales;
+    int scales = __vsub4(scales32[ib32] & 0xfefefefe, 0x7f7f7f7f);
+    const int8_t * s8 = (const int8_t *)&scales;
+    int2 val;
+    const int * q4 = (const int *)bq5->qs + 16*ib32;
+    const int * qh = (const int *)bq5->qh +  4*ib32;
+    int aux32[2];
+    const uint8_t * aux8 = (const uint8_t *)aux32;
+    for (int i = 0; i < 4; ++i) {
+        auto values = iq5nl_values + ((bq5->scales[4*ib32+i] & 1) << 5);
+        int sumi = 0;
+        aux32[0] = ((q4[i+4*is+0] >> 0) & 0x0f0f0f0f) | (((qh[i] >> (2*is+0)) & 0x01010101) << 4);
+        aux32[1] = ((q4[i+4*is+0] >> 4) & 0x0f0f0f0f) | (((qh[i] >> (2*is+1)) & 0x01010101) << 4);
+        val.x  = int_from_table(aux8+0, (const uint8_t *)values);
+        val.y  = int_from_table(aux8+4, (const uint8_t *)values);
+        sumi = ggml_cuda_dp4a(val.x, q8[0], ggml_cuda_dp4a(val.y, q8[2], sumi));
+        aux32[0] = ((q4[i+4*is+8] >> 0) & 0x0f0f0f0f) | (((qh[i] >> (2*is+4)) & 0x01010101) << 4);
+        aux32[1] = ((q4[i+4*is+8] >> 4) & 0x0f0f0f0f) | (((qh[i] >> (2*is+5)) & 0x01010101) << 4);
+        val.x  = int_from_table(aux8+0, (const uint8_t *)values);
+        val.y  = int_from_table(aux8+4, (const uint8_t *)values);
+        sumi = ggml_cuda_dp4a(val.x, q8[1], ggml_cuda_dp4a(val.y, q8[3], sumi));
+        result[i] += dptr[i] * d8 * sumi * s8[i];
+    }
+}
+
 void mul_mat_vec_iq5_ks_r4_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ5_KS_R4, 2, vec_dot_iq5_ks_r4_q8_1, 4>(args, stream);
 }
--- a/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq6_k.cu
+++ b/ggml/src/ggml-cuda/template-instances/mmvq-instance-iq6_k.cu
@@ -1,5 +1,38 @@
 #include "../iqk_mmvq_templates.cuh"

+__device__ __forceinline__ void vec_dot_iq6_k_q8_1(
+    const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs, float * result) {
+
+    const block_iq6_k * bq6 = (const block_iq6_k *) vbq + kbx;
+    const uint8_t * all_values = (const uint8_t *)iq6nl_values;
+
+    int i4 = iqs/4;  // 0...7.  Blocks of 16 index is 4*(i4/2) + (i4%2) + (0 and 2)
+                     //         Blocks of 32 index is 2*(i4/2) + 0 or 1
+
+    const int32_t  * q8_1 = (const int *)bq8_1[2*(i4/2)+0].qs + 4*(i4%2);
+    const int32_t  * q8_2 = (const int *)bq8_1[2*(i4/2)+1].qs + 4*(i4%2);
+    const uint32_t * q4 = (const uint32_t *)bq6->qs + 8*(i4/2) + 4*(i4%2);
+    const uint32_t * qh = (const uint32_t *)bq6->qh + 8*(i4/4) + 4*(i4%2);
+    const uint16_t extra = bq6->extra >> (4*(i4/2) + (i4%2));
+    const uint8_t * values1 = all_values + 64*(extra & 1);
+    const uint8_t * values2 = all_values + 16*(extra & 4);
+    uint32_t aux32[2];
+    const uint8_t * a8 = (const uint8_t *)aux32;
+    int v1, v2;
+    int sumi1 = 0, sumi2 = 0;
+    for (int j = 0; j < 4; ++j) {
+        uint32_t h = qh[j] >> 4*((i4/2)%2);
+        aux32[0] = ((q4[j] >> 0) & 0x0f0f0f0f) | ((h << 4) & 0x30303030);
+        aux32[1] = ((q4[j] >> 4) & 0x0f0f0f0f) | ((h << 2) & 0x30303030);
+        v1 = int_from_table(a8+0, values1);
+        v2 = int_from_table(a8+4, values2);
+        sumi1 = ggml_cuda_dp4a(v1, q8_1[j], sumi1);
+        sumi2 = ggml_cuda_dp4a(v2, q8_2[j], sumi2);
+    }
+    const float d6 = __half2float(bq6->d);
+    *result += d6 * (__low2float(bq8_1[2*(i4/2)+0].ds) * sumi1 * bq6->scales[4*(i4/2)+(i4%2)] + __low2float(bq8_1[2*(i4/2)+1].ds) * sumi2 * bq6->scales[4*(i4/2)+(i4%2)+2]);
+}
+
 void mul_mat_vec_iq6_k_q8_1_cuda(const mmvq_args & args, cudaStream_t stream) {
    iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ6_K, VDR_IQ6_K_Q8_1_MMVQ, vec_dot_iq6_k_q8_1>(args, stream);
 }