Fixed pre-commit problems, fixed small bug in logging_config to handle LOG_LEVEL env var

theobjectivedad · theobjectivedad · commit b1f4f7a34dd4 · 2023-07-15T12:29:35.000Z
diff --git a/scripts/finetune.py b/scripts/finetune.py
@@ -17,14 +17,14 @@
 from optimum.bettertransformer import BetterTransformer
 from transformers import GenerationConfig, TextStreamer
 
+from axolotl.logging_config import configure_logging
 from axolotl.utils.data import load_prepare_datasets, load_pretraining_dataset
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.models import load_model, load_tokenizer
 from axolotl.utils.tokenization import check_dataset_labels
 from axolotl.utils.trainer import setup_trainer
 from axolotl.utils.validation import validate_config
 from axolotl.utils.wandb import setup_wandb_env_vars
-from axolotl.logging_config import configure_logging
 
 project_root = os.path.abspath(os.path.join(os.path.dirname(__file__), ".."))
 src_dir = os.path.join(project_root, "src")
diff --git a/src/axolotl/datasets.py b/src/axolotl/datasets.py
@@ -16,6 +16,7 @@
 
 LOG = logging.getLogger("axolotl")
 
+
 class TokenizedPromptDataset(IterableDataset):
     """
     Iterable dataset that returns tokenized prompts from a stream of text files.
diff --git a/src/axolotl/logging_config.py b/src/axolotl/logging_config.py
@@ -1,3 +1,6 @@
+"""Logging configuration settings"""
+
+import os
 import sys
 from logging.config import dictConfig
 from typing import Any, Dict
@@ -18,7 +21,7 @@
             "stream": sys.stdout,
         },
     },
-    "root": {"handlers": ["console"], "level": "INFO"},
+    "root": {"handlers": ["console"], "level": os.getenv("LOG_LEVEL", "INFO")},
 }
 
 
diff --git a/src/axolotl/monkeypatch/llama_landmark_attn.py b/src/axolotl/monkeypatch/llama_landmark_attn.py
@@ -52,6 +52,7 @@
     logging,
     replace_return_docstrings,
 )
+
 LOG = logging.getLogger("axolotl")
 
 _CONFIG_FOR_DOC = "LlamaConfig"
@@ -861,7 +862,7 @@ def forward(
 
         if self.gradient_checkpointing and self.training:
             if use_cache:
-                logger.warning_once(
+                LOG.warning_once(
                     "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                 )
                 use_cache = False
diff --git a/src/axolotl/prompt_strategies/pygmalion.py b/src/axolotl/prompt_strategies/pygmalion.py
@@ -11,6 +11,8 @@
     tokenize_prompt_default,
 )
 
+LOG = logging.getLogger("axolotl")
+
 IGNORE_TOKEN_ID = -100
 
 
diff --git a/src/axolotl/prompters.py b/src/axolotl/prompters.py
@@ -5,6 +5,7 @@
 from enum import Enum, auto
 from typing import Generator, List, Optional, Tuple, Union
 
+LOG = logging.getLogger("axolotl")
 IGNORE_TOKEN_ID = -100
 
 
diff --git a/src/axolotl/utils/data.py b/src/axolotl/utils/data.py
@@ -258,9 +258,7 @@ def load_tokenized_prepared_datasets(
                 suffix = ""
                 if ":load_" in d.type:
                     suffix = f" Did you mean {d.type.replace(':load_', '.load_')}?"
-                LOG.error(
-                    f"unhandled prompt tokenization strategy: {d.type}. {suffix}"
-                )
+                LOG.error(f"unhandled prompt tokenization strategy: {d.type}. {suffix}")
                 raise ValueError(
                     f"unhandled prompt tokenization strategy: {d.type} {suffix}"
                 )
@@ -271,9 +269,7 @@ def load_tokenized_prepared_datasets(
             samples = samples + list(d)
         dataset = Dataset.from_list(samples).shuffle(seed=seed)
         if cfg.local_rank == 0:
-            LOG.info(
-                f"Saving merged prepared dataset to disk... {prepared_ds_path}"
-            )
+            LOG.info(f"Saving merged prepared dataset to disk... {prepared_ds_path}")
             dataset.save_to_disk(prepared_ds_path)
             if cfg.push_dataset_to_hub:
                 LOG.info(
@@ -366,9 +362,7 @@ def load_prepare_datasets(
                 [dataset],
                 seq_length=max_packed_sequence_len,
             )
-            LOG.info(
-                f"packing master dataset to len: {cfg.max_packed_sequence_len}"
-            )
+            LOG.info(f"packing master dataset to len: {cfg.max_packed_sequence_len}")
             dataset = Dataset.from_list(list(constant_len_dataset))
 
             # filter out bad data
diff --git a/tests/test_prompt_tokenizers.py b/tests/test_prompt_tokenizers.py
@@ -16,9 +16,6 @@
     ShareGPTPromptTokenizingStrategy,
 )
 from axolotl.prompters import AlpacaPrompter, PromptStyle, ShareGPTPrompter
-from axolotl.logging_config import configure_logging
-
-configure_logging()
 
 LOG = logging.getLogger("axolotl")
 

Original file line number	Diff line number	Diff line change
`@@ -52,6 +52,7 @@`
`52`	`52`	`logging,`
`53`	`53`	`replace_return_docstrings,`
`54`	`54`	`)`
	`55`	`+`
`55`	`56`	`LOG = logging.getLogger("axolotl")`
`56`	`57`
`57`	`58`	`_CONFIG_FOR_DOC = "LlamaConfig"`
`@@ -861,7 +862,7 @@ def forward(`
`861`	`862`
`862`	`863`	`if self.gradient_checkpointing and self.training:`
`863`	`864`	`if use_cache:`
`864`		`- logger.warning_once(`
	`865`	`+ LOG.warning_once(`
`865`	`866`	"`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
`866`	`867`	`)`
`867`	`868`	`use_cache = False`
Original file line number	Diff line number	Diff line change
`@@ -11,6 +11,8 @@`
`11`	`11`	`tokenize_prompt_default,`
`12`	`12`	`)`
`13`	`13`
	`14`	`+LOG = logging.getLogger("axolotl")`
	`15`	`+`
`14`	`16`	`IGNORE_TOKEN_ID = -100`
`15`	`17`
`16`	`18`
Original file line number	Diff line number	Diff line change
`@@ -16,9 +16,6 @@`
`16`	`16`	`ShareGPTPromptTokenizingStrategy,`
`17`	`17`	`)`
`18`	`18`	`from axolotl.prompters import AlpacaPrompter, PromptStyle, ShareGPTPrompter`
`19`		`-from axolotl.logging_config import configure_logging`
`20`		`-`
`21`		`-configure_logging()`
`22`	`19`
`23`	`20`	`LOG = logging.getLogger("axolotl")`
`24`	`21`