[Serve.llm] feat: add missing repetition_penalty vLLM sampling param (#53222)

ArthurBook · web-flow · commit 9a8121877a94 · 2025-05-23T06:08:05.000Z
Signed-off-by: Arthur &lt;atte.book@gmail.com&gt;
diff --git a/python/ray/llm/_internal/serve/deployments/llm/vllm/vllm_engine.py b/python/ray/llm/_internal/serve/deployments/llm/vllm/vllm_engine.py
@@ -919,6 +919,9 @@ def _parse_sampling_params(
                 frequency_penalty=sampling_params.frequency_penalty
                 if sampling_params.frequency_penalty is not None
                 else 0.0,
+                repetition_penalty=sampling_params.repetition_penalty
+                if sampling_params.repetition_penalty is not None
+                else 1.0,
                 temperature=sampling_params.temperature
                 if sampling_params.temperature is not None
                 else 1.0,
diff --git a/python/ray/llm/_internal/serve/deployments/llm/vllm/vllm_models.py b/python/ray/llm/_internal/serve/deployments/llm/vllm/vllm_models.py
@@ -211,11 +211,16 @@ class VLLMSamplingParams(SamplingParams):
     Args:
         top_k: The number of highest probability vocabulary tokens to keep for top-k-filtering.
         seed: Seed for deterministic sampling with temperature>0.
+        repetition_penalty: Float that penalizes new tokens based on whether they
+            appear in the prompt and the generated text so far. Values > 1 encourage
+            the model to use new tokens, while values < 1 encourage the model to repeat
+            tokens.
     """
 
     _ignored_fields = {"best_of", "n", "logit_bias"}
 
     top_k: Optional[int] = None
+    repetition_penalty: Optional[float] = None
     seed: Optional[int] = None
 
 
diff --git a/python/ray/llm/tests/serve/cpu/deployments/llm/multiplex/test_multiplex_deployment.py b/python/ray/llm/tests/serve/cpu/deployments/llm/multiplex/test_multiplex_deployment.py
@@ -74,6 +74,7 @@
         "ignore_eos": None,
         "presence_penalty": None,
         "frequency_penalty": None,
+        "repetition_penalty": None,
         "best_of": 1,
         "response_format": None,
         "top_k": None,
@@ -177,6 +178,7 @@ async def test_multiplex_deployment(
             "ignore_eos": None,
             "presence_penalty": None,
             "frequency_penalty": None,
+            "repetition_penalty": None,
             "top_k": None,
             "response_format": None,
             "logprobs": None,
diff --git a/python/ray/llm/tests/serve/mocks/mock_vllm_engine.py b/python/ray/llm/tests/serve/mocks/mock_vllm_engine.py
@@ -162,6 +162,9 @@ def _parse_sampling_params(
                 frequency_penalty=sampling_params.frequency_penalty
                 if sampling_params.frequency_penalty is not None
                 else 0.0,
+                repetition_penalty=sampling_params.repetition_penalty
+                if sampling_params.repetition_penalty is not None
+                else 1.0,
                 temperature=sampling_params.temperature
                 if sampling_params.temperature is not None
                 else 1.0,