Copy EXAONE word embeddings weights to output weights if missing

CISC · web-flow · commit 83a2ef3abe98 · 2025-03-18T16:10:44.000+01:00
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -5027,6 +5027,22 @@ def generate_extra_tensors(self) -> Iterable[tuple[str, Tensor]]:
 
                 yield (self.format_tensor_name(gguf.MODEL_TENSOR.ROPE_FREQS), torch.tensor(rope_factors, dtype=torch.float32))
 
+    def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
+        del bid  # unused
+
+        new_name = self.map_tensor_name(name)
+
+        tensors: list[tuple[str, Tensor]] = [(new_name, data_torch)]
+
+        if new_name == self.format_tensor_name(gguf.MODEL_TENSOR.TOKEN_EMBD):
+            assert self.tensor_names is not None
+
+            if all(s not in self.tensor_names for s in ("lm_head.weight", "output.weight")):
+                # copy tok_embd.weight to output.weight
+                tensors.append((self.format_tensor_name(gguf.MODEL_TENSOR.OUTPUT), data_torch))
+
+        return tensors
+
 
 @Model.register("GraniteForCausalLM")
 class GraniteModel(LlamaModel):