Clear tokenizer_data cache when unloading model

2026-04-23 07:49:04 +00:00 · 2024-07-08 03:31:05 +02:00
parent b7e7df1220
commit 4cf79c5ae1
2 changed files with 13 additions and 1 deletions
--- a/backends/exllamav2/model.py
+++ b/backends/exllamav2/model.py
@@ -26,7 +26,10 @@ from itertools import zip_longest
 from loguru import logger
 from typing import List, Optional, Union

-from backends.exllamav2.grammar import ExLlamaV2Grammar
+from backends.exllamav2.grammar import (
+    ExLlamaV2Grammar,
+    clear_grammar_func_cache,
+)
 from backends.exllamav2.utils import (
    exllama_disabled_flash_attn,
    hardware_supports_flash_attn,
@@ -704,6 +707,10 @@ class ExllamaV2Container:
            # Wait for other jobs to finish
            await self.wait_for_jobs(kwargs.get("skip_wait"))

+            # Delete references held in the grammar module
+            clear_grammar_func_cache()
+
+            # Unload LoRAs
            if self.generator and self.generator.generator.current_loras:
                for lora in self.generator.generator.current_loras:
                    lora.unload()