fix: Paths to huggingface

asafgardin · asafgardin · commit 0b8cfbc1c5f9 · 2025-05-22T09:59:31.000+03:00
diff --git a/ai21_tokenizer/__init__.py b/ai21_tokenizer/__init__.py
@@ -1,10 +1,23 @@
-from ai21_tokenizer.base_tokenizer import BaseTokenizer, AsyncBaseTokenizer
-from ai21_tokenizer.jamba_instruct_tokenizer import JambaInstructTokenizer, AsyncJambaInstructTokenizer
-from ai21_tokenizer.jurassic_tokenizer import JurassicTokenizer, AsyncJurassicTokenizer
-from ai21_tokenizer.tokenizer_factory import TokenizerFactory as Tokenizer, PreTrainedTokenizers
-from ai21_tokenizer.jamba_1_5_tokenizer import Jamba1_5Tokenizer, AsyncJamba1_5Tokenizer
+from ai21_tokenizer.base_tokenizer import AsyncBaseTokenizer, BaseTokenizer
+from ai21_tokenizer.jamba_1_5_tokenizer import (
+    AsyncJamba1_5Tokenizer,
+    AsyncJambaTokenizer,
+    Jamba1_5Tokenizer,
+    SyncJambaTokenizer,
+)
+from ai21_tokenizer.jamba_instruct_tokenizer import (
+    AsyncJambaInstructTokenizer,
+    JambaInstructTokenizer,
+)
+from ai21_tokenizer.jurassic_tokenizer import AsyncJurassicTokenizer, JurassicTokenizer
+from ai21_tokenizer.tokenizer_factory import (
+    PreTrainedTokenizers,
+    TokenizerFactory as Tokenizer,
+)
+
 from .version import VERSION
 
+
 __version__ = VERSION
 
 __all__ = [
@@ -19,4 +32,6 @@
     "AsyncJambaInstructTokenizer",
     "Jamba1_5Tokenizer",
     "AsyncJamba1_5Tokenizer",
+    "SyncJambaTokenizer",
+    "AsyncJambaTokenizer",
 ]
diff --git a/ai21_tokenizer/jamba_1_5_tokenizer.py b/ai21_tokenizer/jamba_1_5_tokenizer.py
@@ -158,3 +158,11 @@ async def _init_tokenizer(self):
     async def _load_from_cache(self, cache_file: Path) -> Tokenizer:
         tokenizer_from_file = await self._make_async_call(callback_func=Tokenizer.from_file, path=str(cache_file))
         return cast(Tokenizer, tokenizer_from_file)
+
+
+class SyncJambaTokenizer(Jamba1_5Tokenizer):
+    pass
+
+
+class AsyncJambaTokenizer(AsyncJamba1_5Tokenizer):
+    pass
diff --git a/ai21_tokenizer/tokenizer_factory.py b/ai21_tokenizer/tokenizer_factory.py
@@ -1,17 +1,25 @@
 import os
 import tempfile
+
 from pathlib import Path
 
-from ai21_tokenizer.base_tokenizer import BaseTokenizer, AsyncBaseTokenizer
-from ai21_tokenizer.jamba_instruct_tokenizer import JambaInstructTokenizer, AsyncJambaInstructTokenizer
-from ai21_tokenizer.jamba_1_5_tokenizer import Jamba1_5Tokenizer, AsyncJamba1_5Tokenizer
-from ai21_tokenizer.jurassic_tokenizer import JurassicTokenizer, AsyncJurassicTokenizer
+from ai21_tokenizer.base_tokenizer import AsyncBaseTokenizer, BaseTokenizer
+from ai21_tokenizer.jamba_1_5_tokenizer import (
+    AsyncJambaTokenizer,
+    SyncJambaTokenizer,
+)
+from ai21_tokenizer.jamba_instruct_tokenizer import (
+    AsyncJambaInstructTokenizer,
+    JambaInstructTokenizer,
+)
+from ai21_tokenizer.jurassic_tokenizer import AsyncJurassicTokenizer, JurassicTokenizer
+
 
 _LOCAL_RESOURCES_PATH = Path(__file__).parent / "resources"
 _ENV_CACHE_DIR_KEY = "AI21_TOKENIZER_CACHE_DIR"
 JAMBA_TOKENIZER_HF_PATH = "ai21labs/Jamba-v0.1"
-JAMBA_1_5_MINI_TOKENIZER_HF_PATH = "ai21labs/AI21-Jamba-1.5-Mini"
-JAMBA_1_5_LARGE_TOKENIZER_HF_PATH = "ai21labs/AI21-Jamba-1.5-Large"
+JAMBA_MINI_1_6_TOKENIZER_HF_PATH = "ai21labs/AI21-Jamba-Mini-1.6"
+JAMBA_LARGE_1_6_TOKENIZER_HF_PATH = "ai21labs/AI21-Jamba-Large-1.6"
 
 
 def _get_cache_dir(tokenizer_name: str) -> Path:
@@ -27,12 +35,17 @@ def _get_cache_dir(tokenizer_name: str) -> Path:
 
 
 class PreTrainedTokenizers:
+    # deprecated tokenizers
     J2_TOKENIZER = "j2-tokenizer"
     JAMBA_INSTRUCT_TOKENIZER = "jamba-instruct-tokenizer"
     JAMBA_TOKENIZER = "jamba-tokenizer"
     JAMBA_1_5_MINI_TOKENIZER = "jamba-1.5-mini-tokenizer"
     JAMBA_1_5_LARGE_TOKENIZER = "jamba-1.5-large-tokenizer"
 
+    # active tokenizers
+    JAMBA_MINI_1_6_TOKENIZER = "jamba-mini-1.6-tokenizer"
+    JAMBA_LARGE_1_6_TOKENIZER = "jamba-large-1.6-tokenizer"
+
 
 class TokenizerFactory:
     """
@@ -48,10 +61,16 @@ def get_tokenizer(
         cache_dir = _get_cache_dir(tokenizer_name=tokenizer_name)
 
         if tokenizer_name == PreTrainedTokenizers.JAMBA_1_5_MINI_TOKENIZER:
-            return Jamba1_5Tokenizer(model_path=JAMBA_1_5_MINI_TOKENIZER_HF_PATH, cache_dir=cache_dir)
+            return SyncJambaTokenizer(model_path=JAMBA_MINI_1_6_TOKENIZER_HF_PATH, cache_dir=cache_dir)
 
         if tokenizer_name == PreTrainedTokenizers.JAMBA_1_5_LARGE_TOKENIZER:
-            return Jamba1_5Tokenizer(model_path=JAMBA_1_5_LARGE_TOKENIZER_HF_PATH, cache_dir=cache_dir)
+            return SyncJambaTokenizer(model_path=JAMBA_LARGE_1_6_TOKENIZER_HF_PATH, cache_dir=cache_dir)
+
+        if tokenizer_name == PreTrainedTokenizers.JAMBA_MINI_1_6_TOKENIZER:
+            return SyncJambaTokenizer(model_path=JAMBA_MINI_1_6_TOKENIZER_HF_PATH, cache_dir=cache_dir)
+
+        if tokenizer_name == PreTrainedTokenizers.JAMBA_LARGE_1_6_TOKENIZER:
+            return SyncJambaTokenizer(model_path=JAMBA_LARGE_1_6_TOKENIZER_HF_PATH, cache_dir=cache_dir)
 
         if (
             tokenizer_name == PreTrainedTokenizers.JAMBA_INSTRUCT_TOKENIZER
@@ -72,12 +91,16 @@ async def get_async_tokenizer(
         cache_dir = _get_cache_dir(tokenizer_name=tokenizer_name)
 
         if tokenizer_name == PreTrainedTokenizers.JAMBA_1_5_MINI_TOKENIZER:
-            return await AsyncJamba1_5Tokenizer.create(model_path=JAMBA_1_5_MINI_TOKENIZER_HF_PATH, cache_dir=cache_dir)
+            return await AsyncJambaTokenizer.create(model_path=JAMBA_MINI_1_6_TOKENIZER_HF_PATH, cache_dir=cache_dir)
 
         if tokenizer_name == PreTrainedTokenizers.JAMBA_1_5_LARGE_TOKENIZER:
-            return await AsyncJamba1_5Tokenizer.create(
-                model_path=JAMBA_1_5_LARGE_TOKENIZER_HF_PATH, cache_dir=cache_dir
-            )
+            return await AsyncJambaTokenizer.create(model_path=JAMBA_LARGE_1_6_TOKENIZER_HF_PATH, cache_dir=cache_dir)
+
+        if tokenizer_name == PreTrainedTokenizers.JAMBA_MINI_1_6_TOKENIZER:
+            return await AsyncJambaTokenizer.create(model_path=JAMBA_MINI_1_6_TOKENIZER_HF_PATH, cache_dir=cache_dir)
+
+        if tokenizer_name == PreTrainedTokenizers.JAMBA_LARGE_1_6_TOKENIZER:
+            return await AsyncJambaTokenizer.create(model_path=JAMBA_LARGE_1_6_TOKENIZER_HF_PATH, cache_dir=cache_dir)
 
         if (
             tokenizer_name == PreTrainedTokenizers.JAMBA_INSTRUCT_TOKENIZER
diff --git a/tests/test_jamba_1_5_tokenizer.py b/tests/test_jamba_1_5_tokenizer.py
@@ -1,12 +1,21 @@
 from pathlib import Path
-from typing import Union, List
+from typing import List, Union
 from unittest.mock import patch
 
 import pytest
+
 from pytest_lazyfixture import lazy_fixture
 
-from ai21_tokenizer.jamba_1_5_tokenizer import Jamba1_5Tokenizer, AsyncJamba1_5Tokenizer
-from ai21_tokenizer.tokenizer_factory import JAMBA_1_5_MINI_TOKENIZER_HF_PATH, JAMBA_1_5_LARGE_TOKENIZER_HF_PATH
+from ai21_tokenizer.jamba_1_5_tokenizer import (
+    AsyncJamba1_5Tokenizer,
+    AsyncJambaTokenizer,
+    Jamba1_5Tokenizer,
+    SyncJambaTokenizer,
+)
+from ai21_tokenizer.tokenizer_factory import (
+    JAMBA_LARGE_1_6_TOKENIZER_HF_PATH,
+    JAMBA_MINI_1_6_TOKENIZER_HF_PATH,
+)
 
 
 @pytest.mark.parametrize(
@@ -20,7 +29,7 @@
         (lazy_fixture("jamba_1_5_large_tokenizer"),),
     ],
 )
-def test_tokenizer_mini_encode_decode(tokenizer: Jamba1_5Tokenizer):
+def test_tokenizer_mini_encode_decode(tokenizer: SyncJambaTokenizer):
     text = "Hello world!"
     encoded = tokenizer.encode(text)
     decoded = tokenizer.decode(encoded)
@@ -46,7 +55,7 @@ def test_tokenizer_mini_encode_decode(tokenizer: Jamba1_5Tokenizer):
 def test_tokenizer_mini__convert_ids_to_tokens(
     ids: Union[int, List[int]],
     expected_tokens: Union[str, List[str]],
-    tokenizer: Jamba1_5Tokenizer,
+    tokenizer: SyncJambaTokenizer,
 ):
     actual_tokens = tokenizer.convert_ids_to_tokens(ids)
 
@@ -111,13 +120,13 @@ def test_tokenizer__decode_with_start_of_line(
     ],
     argnames=["hf_path"],
     argvalues=[
-        (JAMBA_1_5_MINI_TOKENIZER_HF_PATH,),
-        (JAMBA_1_5_LARGE_TOKENIZER_HF_PATH,),
+        (JAMBA_MINI_1_6_TOKENIZER_HF_PATH,),
+        (JAMBA_LARGE_1_6_TOKENIZER_HF_PATH,),
     ],
 )
 def test_tokenizer__when_cache_dir_not_exists__should_save_tokenizer_in_cache_dir(tmp_path: Path, hf_path: str):
     assert not (tmp_path / "tokenizer.json").exists()
-    Jamba1_5Tokenizer(hf_path, tmp_path)
+    SyncJambaTokenizer(hf_path, tmp_path)
 
     assert (tmp_path / "tokenizer.json").exists()
 
@@ -129,18 +138,18 @@ def test_tokenizer__when_cache_dir_not_exists__should_save_tokenizer_in_cache_di
     ],
     argnames=["hf_path"],
     argvalues=[
-        (JAMBA_1_5_MINI_TOKENIZER_HF_PATH,),
-        (JAMBA_1_5_LARGE_TOKENIZER_HF_PATH,),
+        (JAMBA_MINI_1_6_TOKENIZER_HF_PATH,),
+        (JAMBA_LARGE_1_6_TOKENIZER_HF_PATH,),
     ],
 )
 def test_tokenizer__when_cache_dir_exists__should_load_from_cache(tmp_path: Path, hf_path: str):
     # Creating tokenizer once from repo
     assert not (tmp_path / "tokenizer.json").exists()
-    Jamba1_5Tokenizer(hf_path, tmp_path)
+    SyncJambaTokenizer(hf_path, tmp_path)
 
     # Creating tokenizer again to load from cache
-    with patch.object(Jamba1_5Tokenizer, Jamba1_5Tokenizer._load_from_cache.__name__) as mock_load_from_cache:
-        Jamba1_5Tokenizer(hf_path, tmp_path)
+    with patch.object(SyncJambaTokenizer, SyncJambaTokenizer._load_from_cache.__name__) as mock_load_from_cache:
+        SyncJambaTokenizer(hf_path, tmp_path)
 
     # assert load_from_cache was called
     mock_load_from_cache.assert_called_once()
@@ -253,19 +262,19 @@ async def test_async_tokenizer__decode_with_start_of_line(
     ],
     argnames=["hf_path"],
     argvalues=[
-        (JAMBA_1_5_MINI_TOKENIZER_HF_PATH,),
-        (JAMBA_1_5_LARGE_TOKENIZER_HF_PATH,),
+        (JAMBA_MINI_1_6_TOKENIZER_HF_PATH,),
+        (JAMBA_LARGE_1_6_TOKENIZER_HF_PATH,),
     ],
 )
 async def test_async_tokenizer_encode_caches_tokenizer__should_have_tokenizer_in_cache_dir(
     tmp_path: Path, hf_path: str
 ):
     assert not (tmp_path / "tokenizer.json").exists()
-    jamba_tokenizer = await AsyncJamba1_5Tokenizer.create(hf_path, tmp_path)
+    jamba_tokenizer = await AsyncJambaTokenizer.create(hf_path, tmp_path)
     _ = await jamba_tokenizer.encode("Hello world!")
     assert (tmp_path / "tokenizer.json").exists()
 
 
 def test_async_tokenizer_initialized_directly__should_raise_error():
     with pytest.raises(ValueError):
-        AsyncJamba1_5Tokenizer()
+        AsyncJambaTokenizer()