A hopefully more efficient adaptive_p sampling (#1161)

* A hopefully more efficient adaptive_p sampling * Once at it, lets fix the formatting too * More formatting * Correctly accumulate sampling time for adaptive_p
2026-02-28 00:54:09 +00:00 · 2026-01-19 15:01:55 +02:00
parent 6a5c180be9
commit fa58c20c42
5 changed files with 96 additions and 53 deletions
--- a/src/llama.cpp
+++ b/src/llama.cpp
@@ -7690,14 +7690,12 @@ void llama_sample_dry([[maybe_unused]] struct llama_context* ctx, struct llama_s
 void llama_sample_adaptive_p(
    [[maybe_unused]] struct llama_context * ctx,
                   llama_token_data_array * candidates,
-          struct llama_sampler_adaptive_p * adapt_p_ctx)
-{
-    llama_sample_adaptive_p_impl(candidates, adapt_p_ctx);
+          struct llama_sampler_adaptive_p * adapt_p_ctx) {
+    llama_sample_adaptive_p_impl(&ctx->sampling, candidates, adapt_p_ctx);
 }

-void llama_prep_adaptive_p(llama_token_data_array * candidates, struct llama_sampler_adaptive_p * adapt_p_ctx)
-{
-    llama_prep_adaptive_p_impl(candidates, adapt_p_ctx);
+void llama_prep_adaptive_p(struct llama_context * ctx, llama_token_data_array * candidates, struct llama_sampler_adaptive_p * adapt_p_ctx) {
+    llama_prep_adaptive_p_impl(&ctx->sampling, candidates, adapt_p_ctx);
 }


@@ -7743,8 +7741,7 @@ llama_token llama_sample_token(struct llama_context * ctx, llama_token_data_arra
 llama_token llama_sample_token_adaptive_p(
               struct llama_context * ctx,
             llama_token_data_array * candidates,
-    struct llama_sampler_adaptive_p * adapt_p_ctx)
-{
+    struct llama_sampler_adaptive_p * adapt_p_ctx) {
    return llama_sample_token_adaptive_p_impl(&ctx->sampling, candidates, adapt_p_ctx);
 }

@@ -7800,8 +7797,7 @@ void llama_sampler_dry_accept(struct llama_sampler_dry* smpl, llama_token token)
 }


-struct llama_sampler_adaptive_p * llama_init_adaptive_p(const float target, const float decay, const uint32_t seed)
-{
+struct llama_sampler_adaptive_p * llama_init_adaptive_p(const float target, const float decay, const uint32_t seed) {
    return llama_init_adaptive_p_impl(target, decay, seed);
 }