Update doc/zh/DeepseekR1_tutorial_zh_for_Ascend_NPU.md

Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
This commit is contained in:
RICHARDNAN
2025-10-28 22:08:27 +08:00
committed by GitHub
parent 578ed0bfd0
commit 59a722bf6f

View File

@@ -155,7 +155,7 @@ python ktransformers/server/main.py \
- `--gguf_path`kTransformers原生参数str此处用来指定合并后的模型文件路径
- `--cpu_infer`kTransformers原生参数int用来控制CPU侧实际worker线程数非必选
- `--optimize_config_path`kTransformers原生参数str用来指定所用的模型优化配置文件需要注意相对路径的使用此处为**必选**
- `--cache_lens 20480` 调度器申请 kvcache 的总长度。所有请求共享 20480 tokens 对应 kvcache 空间,请求完成后会释放其所占用的 kvcache 空间,非必选
- `--cache_lens`调度器申请 kvcache 的总长度。所有请求共享指定数量(例如 `20480`)的 tokens 对应 kvcache 空间,请求完成后会释放其所占用的 kvcache 空间,非必选
- `--use_cuda_graph`kTransformers原生参数bool为True表示开启图下沉为False表示关闭图下沉非必选
- `--max_new_tokens`kTransformers原生参数int当统计到输出的tokens数量达到该值时会直接中止输出非必选
- `--tp`新增参数int用于开启tensor model parallel功能目前local_chat只支持tp大小与ws大小相同不支持local_chat使用多dp非必选