[refactor]: Change named 'KT-SFT' to 'kt-sft' (#1626)

* Change named 'KT-SFT' to 'kt-sft' * [docs]: update kt-sft name --------- Co-authored-by: ZiWei Yuan <yzwliam@126.com>
2026-03-14 18:37:23 +00:00 · 2025-11-17 11:48:42 +08:00
parent 2887050ca1
commit 171578a7ec
386 changed files with 33 additions and 33 deletions
--- a/README.md
+++ b/README.md
@@ -8,12 +8,12 @@

 </p>
  <h3>A Flexible Framework for Experiencing Cutting-edge LLM Inference/Fine-tune Optimizations</h3>
-  <strong><a href="#-overview">🎯 Overview</a> | <a href="#-kt-kernel---high-performance-inference-kernels">🚀 kt-kernel</a> | <a href="#-kt-sft---fine-tuning-framework">🎓 KT-SFT</a> | <a href="#-citation">🔥 Citation</a> | <a href="https://github.com/kvcache-ai/ktransformers/issues/1582">🚀 Roadmap(2025Q4)</a>  </strong>
+  <strong><a href="#-overview">🎯 Overview</a> | <a href="#-kt-kernel---high-performance-inference-kernels">🚀 kt-kernel</a> | <a href="#-kt-sft---fine-tuning-framework">🎓 kt-sft</a> | <a href="#-citation">🔥 Citation</a> | <a href="https://github.com/kvcache-ai/ktransformers/issues/1582">🚀 Roadmap(2025Q4)</a>  </strong>
 </div>

 ## 🎯 Overview

-KTransformers is a research project focused on efficient inference and fine-tuning of large language models through CPU-GPU heterogeneous computing. The project has evolved into **two core modules**: [kt-kernel](./kt-kernel/) and [KT-SFT](./KT-SFT/).
+KTransformers is a research project focused on efficient inference and fine-tuning of large language models through CPU-GPU heterogeneous computing. The project has evolved into **two core modules**: [kt-kernel](./kt-kernel/) and [kt-sft](./kt-sft/).

 ## 🔥 Updates

@@ -79,7 +79,7 @@ pip install .

 ---

-### 🎓 [KT-SFT](./KT-SFT/) - Fine-Tuning Framework
+### 🎓 [kt-sft](./kt-sft/) - Fine-Tuning Framework

 KTransformers × LLaMA-Factory integration for ultra-large MoE model fine-tuning.

@@ -101,12 +101,12 @@ KTransformers × LLaMA-Factory integration for ultra-large MoE model fine-tuning

 **Quick Start:**
 ```bash
-cd KT-SFT
-# Install environment following KT-SFT/README.md
+cd kt-sft
+# Install environment following kt-sft/README.md
 USE_KT=1 llamafactory-cli train examples/train_lora/deepseek3_lora_sft_kt.yaml
 ```

-👉 **[Full Documentation →](./KT-SFT/README.md)**
+👉 **[Full Documentation →](./kt-sft/README.md)**

 ---

--- a/README_ZH.md
+++ b/README_ZH.md
@@ -8,12 +8,12 @@

 </p>
  <h3>一个用于体验尖端 LLM 推理/微调优化的灵活框架</h3>
-  <strong><a href="#-概览">🎯 概览</a> | <a href="#-kt-kernel---高性能推理内核">🚀 kt-kernel</a> | <a href="#-kt-sft---微调框架">🎓 KT-SFT</a> | <a href="#-引用">🔥 引用</a> </strong>
+  <strong><a href="#-概览">🎯 概览</a> | <a href="#-kt-kernel---高性能推理内核">🚀 kt-kernel</a> | <a href="#-kt-sft---微调框架">🎓 kt-sft</a> | <a href="#-引用">🔥 引用</a> </strong>
 </div>

 ## 🎯 概览

-KTransformers 是一个专注于通过 CPU-GPU 异构计算实现大语言模型高效推理和微调的研究项目。该项目已发展为**两个核心模块**：[kt-kernel](./kt-kernel/) 和 [KT-SFT](./KT-SFT/)。
+KTransformers 是一个专注于通过 CPU-GPU 异构计算实现大语言模型高效推理和微调的研究项目。该项目已发展为**两个核心模块**：[kt-kernel](./kt-kernel/) 和 [kt-sft](./kt-sft/)。

 ## 🔥 更新

@@ -78,7 +78,7 @@ pip install .

 ---

-### 🎓 [KT-SFT](./KT-SFT/) - 微调框架
+### 🎓 [kt-sft](./kt-sft/) - 微调框架

 KTransformers × LLaMA-Factory 集成，用于超大型 MoE 模型微调。

@@ -100,12 +100,12 @@ KTransformers × LLaMA-Factory 集成，用于超大型 MoE 模型微调。

 **快速开始：**
 ```bash
-cd KT-SFT
-# 按照 KT-SFT/README.md 安装环境
+cd kt-sft
+# 按照 kt-sft/README.md 安装环境
 USE_KT=1 llamafactory-cli train examples/train_lora/deepseek3_lora_sft_kt.yaml
 ```

-👉 **[完整文档 →](./KT-SFT/README.md)**
+👉 **[完整文档 →](./kt-sft/README.md)**

 ---

--- a/archive/README.md
+++ b/archive/README.md
@@ -9,7 +9,7 @@

 ## 🎯 Overview

-KTransformers is a research project focused on efficient inference and fine-tuning of large language models through CPU-GPU heterogeneous computing. The project has evolved into **two core modules**: [kt-kernel](./kt-kernel/) and [KT-SFT](./KT-SFT/).
+KTransformers is a research project focused on efficient inference and fine-tuning of large language models through CPU-GPU heterogeneous computing. The project has evolved into **two core modules**: [kt-kernel](./kt-kernel/) and [kt-sft](./kt-sft/).

 ## 🔥 Updates

@@ -67,7 +67,7 @@ pip install .

 ---

-### 🎓 [KT-SFT](./KT-SFT/) - Fine-Tuning Framework
+### 🎓 [kt-sft](./kt-sft/) - Fine-Tuning Framework

 KTransformers × LLaMA-Factory integration for ultra-large MoE model fine-tuning.

@@ -89,12 +89,12 @@ KTransformers × LLaMA-Factory integration for ultra-large MoE model fine-tuning

 **Quick Start:**
 ```bash
-cd KT-SFT
-# Install environment following KT-SFT/README.md
+cd kt-sft
+# Install environment following kt-sft/README.md
 USE_KT=1 llamafactory-cli train examples/train_lora/deepseek3_lora_sft_kt.yaml
 ```

-👉 **[Full Documentation →](./KT-SFT/README.md)**
+👉 **[Full Documentation →](./kt-sft/README.md)**

 ---

--- a/archive/README_ZH.md
+++ b/archive/README_ZH.md
@@ -9,7 +9,7 @@

 ## 🎯 项目概述

-KTransformers 是一个专注于大语言模型高效推理和微调的研究项目，通过 CPU-GPU 异构计算实现资源受限环境下的模型部署。项目已演进为**两个核心模块**：[kt-kernel](./kt-kernel/) 和 [KT-SFT](./KT-SFT/)。
+KTransformers 是一个专注于大语言模型高效推理和微调的研究项目，通过 CPU-GPU 异构计算实现资源受限环境下的模型部署。项目已演进为**两个核心模块**：[kt-kernel](./kt-kernel/) 和 [kt-sft](./kt-sft/)。

 ## 🔥 更新

@@ -66,7 +66,7 @@ pip install .

 ---

-### 🎓 [KT-SFT](./KT-SFT/) - 微调框架
+### 🎓 [kt-sft](./kt-sft/) - 微调框架

 KTransformers × LLaMA-Factory 集成，支持超大 MoE 模型微调。

@@ -86,12 +86,12 @@ KTransformers × LLaMA-Factory 集成，支持超大 MoE 模型微调。

 **快速开始：**
 ```bash
-cd KT-SFT
-# 按照 KT-SFT/README.md 安装环境
+cd kt-sft
+# 按照 kt-sft/README.md 安装环境
 USE_KT=1 llamafactory-cli train examples/train_lora/deepseek3_lora_sft_kt.yaml
 ```

-👉 **[完整文档 →](./KT-SFT/README.md)**
+👉 **[完整文档 →](./kt-sft/README.md)**

 ---

--- a/doc/SUMMARY.md
+++ b/doc/SUMMARY.md
@@ -3,11 +3,11 @@
 [Introduction](./README.md)
 # Install & Usage
 - [For kt-kernel](en/kt-kernel/kt-kernel_intro.md)
- [For SFT](en/SFT/KTransformers-Fine-Tuning_User-Guide.md)
+- [For kt-sft](en/SFT/KTransformers-Fine-Tuning_User-Guide.md)

 # Tutorial 
- [SFT part](en/SFT/README.md)
-  - [SFT developer tech notes](en/SFT/KTransformers-Fine-Tuning_Developer-Technical-Notes.md)
+- [kt-sft part](en/SFT/README.md)
+  - [kt-sft developer tech notes](en/SFT/KTransformers-Fine-Tuning_Developer-Technical-Notes.md)
  - [Injection Tutorial](en/SFT/injection_tutorial.md)
  <!-- - [Multi-GPU Tutorial](en/multi-gpu-tutorial.md) -->
  <!-- - [Use FP8 GPU Kernel](en/fp8_kernel.md) -->
--- a/doc/en/SFT/README.md
+++ b/doc/en/SFT/README.md
@@ -1 +1 @@
-# SFT Docs
+# kt-sft Docs
--- a/kt-sft/.flake8
+++ b/kt-sft/.flake8
--- a/kt-sft/.gitignore
+++ b/kt-sft/.gitignore
--- a/kt-sft/.gitmodules
+++ b/kt-sft/.gitmodules
--- a/kt-sft/.pylintrc
+++ b/kt-sft/.pylintrc
--- a/kt-sft/Dockerfile
+++ b/kt-sft/Dockerfile
--- a/kt-sft/Dockerfile.xpu
+++ b/kt-sft/Dockerfile.xpu
--- a/kt-sft/LICENSE
+++ b/kt-sft/LICENSE
--- a/kt-sft/MANIFEST.in
+++ b/kt-sft/MANIFEST.in
--- a/kt-sft/Makefile
+++ b/kt-sft/Makefile
--- a/kt-sft/README.md
+++ b/kt-sft/README.md
--- a/kt-sft/SECURITY.md
+++ b/kt-sft/SECURITY.md
--- a/kt-sft/WeChatGroup.png
+++ b/kt-sft/WeChatGroup.png
--- a/kt-sft/autosetup.sh
+++ b/kt-sft/autosetup.sh
--- a/kt-sft/book.toml
+++ b/kt-sft/book.toml
--- a/kt-sft/csrc/custom_marlin/init.py
+++ b/kt-sft/csrc/custom_marlin/init.py
--- a/kt-sft/csrc/custom_marlin/binding.cpp
+++ b/kt-sft/csrc/custom_marlin/binding.cpp
--- a/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin.cu
+++ b/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin.cu
--- a/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin.cuh
+++ b/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin.cuh
--- a/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin_dtypes.cuh
+++ b/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin_dtypes.cuh
--- a/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin_repack.cu
+++ b/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin_repack.cu
--- a/kt-sft/csrc/custom_marlin/gptq_marlin/ops.h
+++ b/kt-sft/csrc/custom_marlin/gptq_marlin/ops.h
--- a/kt-sft/csrc/custom_marlin/setup.py
+++ b/kt-sft/csrc/custom_marlin/setup.py
--- a/kt-sft/csrc/custom_marlin/test_cuda_graph.py
+++ b/kt-sft/csrc/custom_marlin/test_cuda_graph.py
--- a/kt-sft/csrc/custom_marlin/utils/init.py
+++ b/kt-sft/csrc/custom_marlin/utils/init.py
--- a/kt-sft/csrc/custom_marlin/utils/format24.py
+++ b/kt-sft/csrc/custom_marlin/utils/format24.py
--- a/kt-sft/csrc/custom_marlin/utils/marlin_24_perms.py
+++ b/kt-sft/csrc/custom_marlin/utils/marlin_24_perms.py
--- a/kt-sft/csrc/custom_marlin/utils/marlin_perms.py
+++ b/kt-sft/csrc/custom_marlin/utils/marlin_perms.py
--- a/kt-sft/csrc/custom_marlin/utils/marlin_utils.py
+++ b/kt-sft/csrc/custom_marlin/utils/marlin_utils.py
--- a/kt-sft/csrc/custom_marlin/utils/quant_utils.py
+++ b/kt-sft/csrc/custom_marlin/utils/quant_utils.py
--- a/kt-sft/csrc/ktransformers_ext/CMakeLists.txt
+++ b/kt-sft/csrc/ktransformers_ext/CMakeLists.txt
--- a/kt-sft/csrc/ktransformers_ext/bench/bench_attention.py
+++ b/kt-sft/csrc/ktransformers_ext/bench/bench_attention.py
--- a/kt-sft/csrc/ktransformers_ext/bench/bench_attention_torch.py
+++ b/kt-sft/csrc/ktransformers_ext/bench/bench_attention_torch.py
--- a/kt-sft/csrc/ktransformers_ext/bench/bench_linear.py
+++ b/kt-sft/csrc/ktransformers_ext/bench/bench_linear.py
--- a/kt-sft/csrc/ktransformers_ext/bench/bench_linear_torch.py
+++ b/kt-sft/csrc/ktransformers_ext/bench/bench_linear_torch.py
--- a/kt-sft/csrc/ktransformers_ext/bench/bench_mlp.py
+++ b/kt-sft/csrc/ktransformers_ext/bench/bench_mlp.py
--- a/kt-sft/csrc/ktransformers_ext/bench/bench_mlp_torch.py
+++ b/kt-sft/csrc/ktransformers_ext/bench/bench_mlp_torch.py
--- a/kt-sft/csrc/ktransformers_ext/bench/bench_moe.py
+++ b/kt-sft/csrc/ktransformers_ext/bench/bench_moe.py
--- a/kt-sft/csrc/ktransformers_ext/bench/bench_moe_amx.py
+++ b/kt-sft/csrc/ktransformers_ext/bench/bench_moe_amx.py
--- a/kt-sft/csrc/ktransformers_ext/bench/bench_moe_torch.py
+++ b/kt-sft/csrc/ktransformers_ext/bench/bench_moe_torch.py
--- a/kt-sft/csrc/ktransformers_ext/cmake/FindSIMD.cmake
+++ b/kt-sft/csrc/ktransformers_ext/cmake/FindSIMD.cmake
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/backend.cpp
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/backend.cpp
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/backend.h
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/backend.h
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/cpuinfer.h
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/cpuinfer.h
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/shared_mem_buffer.cpp
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/shared_mem_buffer.cpp
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/shared_mem_buffer.h
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/shared_mem_buffer.h
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/task_queue.cpp
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/task_queue.cpp
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/task_queue.h
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/task_queue.h
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/README.md
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/README.md
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/cuda.h
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/cuda.h
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/hip.h
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/hip.h
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/musa.h
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/musa.h
--- a/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/vendor.h
+++ b/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/vendor.h
--- a/kt-sft/csrc/ktransformers_ext/cuda/binding.cpp
+++ b/kt-sft/csrc/ktransformers_ext/cuda/binding.cpp
--- a/kt-sft/csrc/ktransformers_ext/cuda/custom_gguf/dequant.cu
+++ b/kt-sft/csrc/ktransformers_ext/cuda/custom_gguf/dequant.cu
--- a/kt-sft/csrc/ktransformers_ext/cuda/custom_gguf/ops.h
+++ b/kt-sft/csrc/ktransformers_ext/cuda/custom_gguf/ops.h
--- a/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin.cu
+++ b/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin.cu
--- a/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin.cuh
+++ b/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin.cuh
--- a/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin_dtypes.cuh
+++ b/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin_dtypes.cuh
--- a/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/ops.h
+++ b/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/ops.h
--- a/kt-sft/csrc/ktransformers_ext/cuda/setup.py
+++ b/kt-sft/csrc/ktransformers_ext/cuda/setup.py
--- a/kt-sft/csrc/ktransformers_ext/cuda/test_dequant.py
+++ b/kt-sft/csrc/ktransformers_ext/cuda/test_dequant.py
--- a/kt-sft/csrc/ktransformers_ext/examples/test_attention.py
+++ b/kt-sft/csrc/ktransformers_ext/examples/test_attention.py
--- a/kt-sft/csrc/ktransformers_ext/examples/test_linear.py
+++ b/kt-sft/csrc/ktransformers_ext/examples/test_linear.py
--- a/kt-sft/csrc/ktransformers_ext/examples/test_mlp.py
+++ b/kt-sft/csrc/ktransformers_ext/examples/test_mlp.py
--- a/kt-sft/csrc/ktransformers_ext/examples/test_moe.py
+++ b/kt-sft/csrc/ktransformers_ext/examples/test_moe.py
--- a/kt-sft/csrc/ktransformers_ext/examples/test_sft_amx_moe.py
+++ b/kt-sft/csrc/ktransformers_ext/examples/test_sft_amx_moe.py
@@ -35,7 +35,7 @@ gradtype = torch.bfloat16
 # torch.backends.cuda.matmul.allow_tf32 = False

 import shutil
-folder_path = "/home/lpl/KT-SFT/debug"
+folder_path = "/home/lpl/kt-sft/debug"
 if os.path.exists(folder_path):
    shutil.rmtree(folder_path)
 os.makedirs(folder_path)
@@ -650,13 +650,13 @@ def manual_check(experts_ids):
        
        down_ba_ori = get_tensor(f"cpp_layer0_E_End{experts_idx}_down_ba_ori_", (expert_token_counts[experts_idx], intermediate_size))

-        # with open(f"/home/lpl/KT-SFT/debug/cpp_{experts_idx}_down_ba_ori_view.txt", "w") as f:
+        # with open(f"/home/lpl/kt-sft/debug/cpp_{experts_idx}_down_ba_ori_view.txt", "w") as f:
        #     f.write(str(down_ba_ori))   
        
    
        down_output_grad = get_tensor(f"cpp_layer0_E_End{experts_idx}_down_output_grad_", (expert_token_counts[experts_idx], hidden_size))

-        # with open(f"/home/lpl/KT-SFT/debug/cpp_{experts_idx}_down_t_ba_ori_view.txt", "w") as f:
+        # with open(f"/home/lpl/kt-sft/debug/cpp_{experts_idx}_down_t_ba_ori_view.txt", "w") as f:
        #     f.write(str(down_output_grad))
            
        
@@ -674,10 +674,10 @@ def manual_check(experts_ids):
        py_down_t_ba = torch.load(f"debug/py_layer0_E_End{experts_idx}_down_output_grad_.pt")
        py_down_ba = torch.load(f"debug/py_layer0_E_End{experts_idx}_gate_output_.pt")

-        # with open(f"/home/lpl/KT-SFT/debug/py_{experts_idx}_down_t_ba_ori_view.txt", "w") as f:
+        # with open(f"/home/lpl/kt-sft/debug/py_{experts_idx}_down_t_ba_ori_view.txt", "w") as f:
        #     f.write(str(py_down_t_ba))
        
-        # with open(f"/home/lpl/KT-SFT/debug/py_{experts_idx}_down_ba_ori_view.txt", "w") as f:
+        # with open(f"/home/lpl/kt-sft/debug/py_{experts_idx}_down_ba_ori_view.txt", "w") as f:
        #     f.write(str(py_down_ba))
            
        print(f"cpp_{experts_idx}_down_ba_ori_:{down_ba_ori}") 
--- a/kt-sft/csrc/ktransformers_ext/examples/test_sft_moe.py
+++ b/kt-sft/csrc/ktransformers_ext/examples/test_sft_moe.py
--- a/kt-sft/csrc/ktransformers_ext/ext_bindings.cpp
+++ b/kt-sft/csrc/ktransformers_ext/ext_bindings.cpp
--- a/kt-sft/csrc/ktransformers_ext/operators/amx/debug_sft_moe.hpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/amx/debug_sft_moe.hpp
--- a/kt-sft/csrc/ktransformers_ext/operators/amx/debug_tools_sft_moe.hpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/amx/debug_tools_sft_moe.hpp
--- a/kt-sft/csrc/ktransformers_ext/operators/amx/la/amx.hpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/amx/la/amx.hpp
--- a/kt-sft/csrc/ktransformers_ext/operators/amx/la/utils.hpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/amx/la/utils.hpp
--- a/kt-sft/csrc/ktransformers_ext/operators/amx/moe.hpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/amx/moe.hpp
--- a/kt-sft/csrc/ktransformers_ext/operators/amx/sft_moe.hpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/amx/sft_moe.hpp
--- a/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache.h
+++ b/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache.h
--- a/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_attn.cpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_attn.cpp
--- a/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_load_dump.cpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_load_dump.cpp
--- a/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_read_write.cpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_read_write.cpp
--- a/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_utils.cpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_utils.cpp
--- a/kt-sft/csrc/ktransformers_ext/operators/llamafile/conversion.h
+++ b/kt-sft/csrc/ktransformers_ext/operators/llamafile/conversion.h
--- a/kt-sft/csrc/ktransformers_ext/operators/llamafile/linear.cpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/llamafile/linear.cpp
--- a/kt-sft/csrc/ktransformers_ext/operators/llamafile/linear.h
+++ b/kt-sft/csrc/ktransformers_ext/operators/llamafile/linear.h
--- a/kt-sft/csrc/ktransformers_ext/operators/llamafile/mlp.cpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/llamafile/mlp.cpp
--- a/kt-sft/csrc/ktransformers_ext/operators/llamafile/mlp.h
+++ b/kt-sft/csrc/ktransformers_ext/operators/llamafile/mlp.h
--- a/kt-sft/csrc/ktransformers_ext/operators/llamafile/moe.cpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/llamafile/moe.cpp
--- a/kt-sft/csrc/ktransformers_ext/operators/llamafile/moe.h
+++ b/kt-sft/csrc/ktransformers_ext/operators/llamafile/moe.h
--- a/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe.cpp
+++ b/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe.cpp
--- a/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe.h
+++ b/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe.h
--- a/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe_forward_cache.h
+++ b/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe_forward_cache.h
--- a/kt-sft/csrc/ktransformers_ext/vendors/cuda.h
+++ b/kt-sft/csrc/ktransformers_ext/vendors/cuda.h
--- a/kt-sft/csrc/ktransformers_ext/vendors/hip.h
+++ b/kt-sft/csrc/ktransformers_ext/vendors/hip.h
--- a/kt-sft/csrc/ktransformers_ext/vendors/musa.h
+++ b/kt-sft/csrc/ktransformers_ext/vendors/musa.h
--- a/kt-sft/csrc/ktransformers_ext/vendors/vendor.h
+++ b/kt-sft/csrc/ktransformers_ext/vendors/vendor.h
--- a/kt-sft/install-with-cache.sh
+++ b/kt-sft/install-with-cache.sh
--- a/Show More
+++ b/Show More