Bring along preprocessor/processor config

cg123 · cg123 · commit 5e1888ed1cf4 · 2025-03-13T14:43:33.000-07:00
diff --git a/mergekit/_data/architectures/gemma3vl.json b/mergekit/_data/architectures/gemma3vl.json
@@ -4,6 +4,10 @@
         "Gemma3ForConditionalGeneration"
     ],
     "model_type": "gemma3",
+    "tagalong_files": [
+        "preprocessor_config.json",
+        "processor_config.json"
+    ],
     "modules": {
         "text_decoder": {
             "weight_prefix": "language_model.",
diff --git a/mergekit/_data/architectures/whisper.json b/mergekit/_data/architectures/whisper.json
@@ -0,0 +1,196 @@
+{
+    "kind": "modular",
+    "architectures": [
+        "WhisperForConditionalGeneration"
+    ],
+    "model_type": "whisper",
+    "tagalong_files": [
+        "preprocessor_config.json",
+        "normalizer.json"
+    ],
+    "modules": {
+        "decoder": {
+            "weight_prefix": "model.decoder",
+            "architecture": {
+                "model_type": "",
+                "architectures": [],
+                "pre_weights": [
+                    {
+                        "name": "embed_tokens.weight",
+                        "is_embed": true
+                    },
+                    {
+                        "name": "embed_positions.weight"
+                    }
+                ],
+                "num_layers_config_key": "decoder_layers",
+                "layer_templates": {
+                    "weights": [
+                        {
+                            "name": "layers.${layer_index}.encoder_attn.k_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.encoder_attn.out_proj.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.encoder_attn.out_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.encoder_attn.q_proj.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.encoder_attn.q_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.encoder_attn.v_proj.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.encoder_attn.v_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.encoder_attn_layer_norm.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.encoder_attn_layer_norm.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.fc1.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.fc1.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.fc2.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.fc2.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.final_layer_norm.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.final_layer_norm.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.k_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.out_proj.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.out_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.q_proj.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.q_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.v_proj.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.v_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn_layer_norm.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn_layer_norm.weight"
+                        }
+                    ]
+                },
+                "post_weights": [
+                    {
+                        "name": "layer_norm.bias"
+                    },
+                    {
+                        "name": "layer_norm.weight"
+                    }
+                ]
+            }
+        },
+        "encoder": {
+            "weight_prefix": "model.encoder.",
+            "architecture": {
+                "model_type": "",
+                "architectures": [],
+                "pre_weights": [
+                    {
+                        "name": "embed_positions.weight"
+                    },
+                    {
+                        "name": "conv1.bias"
+                    },
+                    {
+                        "name": "conv1.weight"
+                    },
+                    {
+                        "name": "conv2.bias"
+                    },
+                    {
+                        "name": "conv2.weight"
+                    }
+                ],
+                "post_weights": [
+                    {
+                        "name": "layer_norm.bias"
+                    },
+                    {
+                        "name": "layer_norm.weight"
+                    }
+                ],
+                "layer_templates": {
+                    "weights": [
+                        {
+                            "name": "layers.${layer_index}.fc1.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.fc1.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.fc2.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.fc2.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.final_layer_norm.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.final_layer_norm.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.k_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.out_proj.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.out_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.q_proj.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.q_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.v_proj.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn.v_proj.weight"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn_layer_norm.bias"
+                        },
+                        {
+                            "name": "layers.${layer_index}.self_attn_layer_norm.weight"
+                        }
+                    ]
+                },
+                "num_layers_config_key": "encoder_layers"
+            }
+        }
+    }
+}
diff --git a/mergekit/architecture/base.py b/mergekit/architecture/base.py
@@ -127,6 +127,7 @@ class ModelArchitecture(BaseModel, frozen=True):
     modules: Dict[str, ModuleDefinition]
     architectures: List[str]
     expected_model_type: str = Field(alias="model_type")
+    tagalong_files: Optional[List[str]] = None
 
     def all_weights(self, config: PretrainedConfig) -> List[WeightInfo]:
         res = []
diff --git a/mergekit/architecture/json_definitions.py b/mergekit/architecture/json_definitions.py
@@ -104,6 +104,7 @@ class JsonModularArchitectureDefinition(BaseModel, frozen=True):
     modules: Dict[str, JsonModuleDefinition]
     architectures: List[str]
     expected_model_type: str = Field(alias="model_type")
+    tagalong_files: Optional[List[str]] = None
 
 
 class TemplateWithArithmetic(string.Template):
@@ -152,6 +153,7 @@ def _load_architecture_json(name: str) -> ModelArchitecture:
             },
             architectures=parsed.architectures,
             model_type=parsed.expected_model_type,
+            tagalong_files=parsed.tagalong_files,
         )
     elif data.get("kind", "module") == "module":
         module = JsonModuleArchitecture(
diff --git a/mergekit/merge.py b/mergekit/merge.py
@@ -7,7 +7,7 @@
 import os
 import shutil
 from collections import Counter
-from typing import Optional
+from typing import List, Optional
 
 import tqdm
 import transformers
@@ -112,7 +112,11 @@ def run_merge(
         ) as fp:
             fp.write(config_source)
 
-    if tokenizer is None:
+    if tokenizer is not None:
+        logger.info("Saving tokenizer")
+        _set_chat_template(tokenizer, merge_config)
+        tokenizer.save_pretrained(out_path, safe_serialization=True)
+    else:
         if options.copy_tokenizer:
             try:
                 _copy_tokenizer(
@@ -128,10 +132,12 @@ def run_merge(
                 "Chat template specified but no tokenizer found. Chat template will not be saved."
             )
 
-    if tokenizer:
-        logger.info("Saving tokenizer")
-        _set_chat_template(tokenizer, merge_config)
-        tokenizer.save_pretrained(out_path, safe_serialization=True)
+    _copy_tagalong_files(
+        merge_config,
+        out_path,
+        files=arch_info.tagalong_files or [],
+        trust_remote_code=options.trust_remote_code,
+    )
 
     if getattr(arch_info, "post_fill_parameters", False):
         from mergekit.scripts.fill_missing_params import copy_and_fill_missing_params
@@ -192,6 +198,25 @@ def _set_chat_template(
     tokenizer.chat_template = chat_template
 
 
+def _copy_tagalong_files(
+    merge_config: MergeConfiguration,
+    out_path: str,
+    files: List[str],
+    trust_remote_code: bool = False,
+):
+    donor_model = merge_config.base_model or (merge_config.referenced_models()[0])
+
+    for file_name in files:
+        if os.path.exists(os.path.join(donor_model.model.path, file_name)):
+            logger.info(f"Copying {file_name} from {donor_model}")
+            shutil.copy(
+                os.path.join(donor_model.model.path, file_name),
+                os.path.join(out_path, file_name),
+            )
+
+    return
+
+
 def _copy_tokenizer(
     merge_config: MergeConfiguration, out_path: str, trust_remote_code: bool = False
 ):
@@ -214,6 +239,8 @@ def _copy_tokenizer(
             "special_tokens_map.json",
             "tokenizer.json",
             "tokenizer.model",
+            "added_tokens.json",
+            "merges.txt",
         ]:
             if os.path.exists(os.path.join(donor_model.model.path, file_name)):
                 shutil.copy(