OAI: Add cache_mode parameter to model

Mistakenly forgot that the user can choose what cache mode to use when loading a model. Also add when fetching model info. Signed-off-by: kingbri <bdashore3@proton.me>
2026-03-15 00:07:28 +00:00 · 2023-12-16 02:42:36 -05:00
parent ed868fd262
commit 1a331afe3a
2 changed files with 3 additions and 0 deletions
--- a/OAI/types/model.py
+++ b/OAI/types/model.py
@@ -8,6 +8,7 @@ class ModelCardParameters(BaseModel):
    rope_scale: Optional[float] = 1.0
    rope_alpha: Optional[float] = 1.0
    prompt_template: Optional[str] = None
+    cache_mode: Optional[str] = "FP16"
    draft: Optional['ModelCard'] = None

 class ModelCard(BaseModel):
@@ -37,6 +38,7 @@ class ModelLoadRequest(BaseModel):
    rope_alpha: Optional[float] = 1.0
    no_flash_attention: Optional[bool] = False
    # low_mem: Optional[bool] = False
+    cache_mode: Optional[str] = "FP16"
    prompt_template: Optional[str] = None
    draft: Optional[DraftModelLoadRequest] = None