typo--

CISC · web-flow · commit b016daf8327b · 2024-04-27T18:08:25.000+02:00
diff --git a/llama_cpp/llama.py b/llama_cpp/llama.py
@@ -940,9 +940,9 @@ def _create_completion(
 
         completion_id: str = f"cmpl-{str(uuid.uuid4())}"
         created: int = int(time.time())
-        prefix_token_id: int = int(self.metadata.get("tokenizer.ggml.prefix_token_id", self.token_prefix()))
-        middle_token_id: int = int(self.metadata.get("tokenizer.ggml.middle_token_id", self.token_middle()))
-        suffix_token_id: int = int(self.metadata.get("tokenizer.ggml.suffix_token_id", self.token_suffix()))
+        prefix_token_id: int = int(self.metadata.get("tokenizer.ggml.prefix_token_id", self._model.token_prefix()))
+        middle_token_id: int = int(self.metadata.get("tokenizer.ggml.middle_token_id", self._model.token_middle()))
+        suffix_token_id: int = int(self.metadata.get("tokenizer.ggml.suffix_token_id", self._model.token_suffix()))
         # If prompt is empty, initialize completion with BOS token to avoid
         # detokenization including a space at the beginning of the completion
         completion_tokens: List[int] = [] if len(prompt) > 0 else [self.token_bos()]