always compute on-the-fly lora weights when offload

2026-02-06 16:09:58 +00:00 · 2024-08-31 11:24:23 -07:00
parent 3a9cf1f8e5
commit 33963f2d19
2 changed files with 8 additions and 7 deletions
--- a/backend/sampling/sampling_function.py
+++ b/backend/sampling/sampling_function.py
@@ -382,7 +382,9 @@ def sampling_prepare(unet, x):

    memory_management.load_models_gpu(
        models=[unet] + additional_model_patchers,
-        memory_required=unet_inference_memory + additional_inference_memory)
+        memory_required=unet_inference_memory,
+        hard_memory_preservation=additional_inference_memory
+    )

    if unet.has_online_lora():
        utils.nested_move_to_device(unet.lora_patches, device=unet.current_device, dtype=unet.model.computation_dtype)