fix(server): Propagate flash_attn to model load. (#1424)

dthuerck · web-flow · commit 2138561fab5e · 2024-05-03T12:17:07.000-04:00
diff --git a/llama_cpp/server/model.py b/llama_cpp/server/model.py
@@ -242,6 +242,7 @@ def load_llama_from_model_settings(settings: ModelSettings) -> llama_cpp.Llama:
             logits_all=settings.logits_all,
             embedding=settings.embedding,
             offload_kqv=settings.offload_kqv,
+            flash_attn=settings.flash_attn,
             # Sampling Params
             last_n_tokens_size=settings.last_n_tokens_size,
             # LoRA Params