Logging: Clarify new vs cached tokens in prompt processing

2026-04-26 17:28:54 +00:00 · 2024-05-26 18:21:17 -07:00
parent 3dcae8b023
commit ce5e2ec8de
2 changed files with 8 additions and 2 deletions
--- a/backends/exllamav2/model.py
+++ b/backends/exllamav2/model.py
@@ -1125,6 +1125,7 @@ class ExllamaV2Container:
                        log_metrics(
                            result.get("time_enqueued"),
                            result.get("prompt_tokens"),
                            result.get("cached_tokens"),
                            result.get("time_prefill"),
                            result.get("new_tokens"),
                            result.get("time_generate"),
--- a/common/gen_logging.py
+++ b/common/gen_logging.py
@@ -72,6 +72,7 @@ def log_response(response: str):
 def log_metrics(
    queue_time: float,
    prompt_tokens: int,
    cached_tokens: int,
    prompt_time: float,
    generated_tokens: int,
    generate_time: float,
@@ -88,9 +89,13 @@ def log_metrics(
    itemization.append(f"Queue: {round(queue_time, 2)} s")
    prompt_ts = (
-        "Indeterminate" if prompt_time == 0 else round(prompt_tokens / prompt_time, 2)
+        "Indeterminate"
        if prompt_time == 0
        else round((prompt_tokens - cached_tokens) / prompt_time, 2)
    )
    itemization.append(
        f"Process: {cached_tokens} cached tokens and {prompt_tokens - cached_tokens} new tokens at {prompt_ts} T/s"
    )
    itemization.append(f"Process: {prompt_ts} T/s")
    generate_ts = (
        "Indeterminate"