Model: Enable max_rq_tokens (output chunking)

2026-03-14 15:57:27 +00:00 · 2025-10-05 18:54:45 +02:00
parent e09a61969f
commit 52e093ae6c
4 changed files with 250 additions and 230 deletions
--- a/endpoints/core/types/model.py
+++ b/endpoints/core/types/model.py
@@ -109,6 +109,7 @@ class ModelLoadRequest(BaseModel):
    )
    cache_mode: Optional[str] = None
    chunk_size: Optional[int] = None
+    disable_output_chunking: Optional[bool] = False
    prompt_template: Optional[str] = None
    vision: Optional[bool] = None