OAI: Add fasttensors to model load endpoint

Also fix logging when loading prompt templates. Signed-off-by: kingbri <bdashore3@proton.me>
2026-03-15 00:07:28 +00:00 · 2024-01-25 01:01:29 -05:00
parent fc4570220c
commit 751627e571
2 changed files with 2 additions and 1 deletions
--- a/OAI/types/model.py
+++ b/OAI/types/model.py
@@ -90,6 +90,7 @@ class ModelLoadRequest(BaseModel):
    prompt_template: Optional[str] = None
    num_experts_per_token: Optional[int] = None
    use_cfg: Optional[bool] = None
+    fasttensors: Optional[bool] = False
    draft: Optional[DraftModelLoadRequest] = None


--- a/backends/exllamav2/model.py
+++ b/backends/exllamav2/model.py
@@ -243,7 +243,7 @@ class ExllamaV2Container:
    def find_prompt_template(self, prompt_template_name, model_directory):
        """Tries to find a prompt template using various methods"""

-        logger.info("Loading prompt template with name " f"{prompt_template_name}")
+        logger.info("Attempting to load a prompt template if present.")

        find_template_functions = [
            lambda: get_template_from_model_json(