occiglot
diff --git a/Diff for: ‎pyproject.toml
+4 b/Diff for: ‎pyproject.toml
+4
diff --git a/Diff for: ‎src/datatrove/executor/slurm.py
+22-10 b/Diff for: ‎src/datatrove/executor/slurm.py
+22-10
diff --git a/Diff for: ‎src/datatrove/io.py
+5 b/Diff for: ‎src/datatrove/io.py
+5
diff --git a/Diff for: ‎src/datatrove/pipeline/decont/__init__.py
+1 b/Diff for: ‎src/datatrove/pipeline/decont/__init__.py
+1
diff --git a/Diff for: ‎src/datatrove/pipeline/decont/n_grams.py
+228 b/Diff for: ‎src/datatrove/pipeline/decont/n_grams.py
+228
diff --git a/Diff for: ‎src/datatrove/pipeline/dedup/minhash.py
+1-1 b/Diff for: ‎src/datatrove/pipeline/dedup/minhash.py
+1-1
diff --git a/Diff for: ‎src/datatrove/pipeline/filters/__init__.py
+1-1 b/Diff for: ‎src/datatrove/pipeline/filters/__init__.py
+1-1
@@ -58,6 +58,9 @@ processing = [
     "fasteners",
     "xxhash"
 ]
+decont = [
+    "lighteval>=0.3.0"
+]
 quality = [
   "ruff>=0.1.5"
 ]
@@ -66,6 +69,7 @@ testing = [
   "datatrove[io]",
   "datatrove[processing]",
   "datatrove[s3]",
+  "datatrove[decont]",
   "pytest",
   "pytest-timeout",
   "pytest-xdist",
 
@@ -1,6 +1,7 @@
 from __future__ import annotations
 
 import json
+import math
 import os
 import random
 import signal
@@ -25,7 +26,7 @@
 def requeue_handler(signum, _frame):
     signame = signal.Signals(signum).name
     logger.warning(f"Received signal {signum} ({signame}). Requeueing and exiting...")
-    subprocess.run(["scontrol", "requeue", "${SLURM_JOB_ID}"])
+    subprocess.run(["scontrol", "requeue", os.environ.get("SLURM_JOB_ID")])
     sys.exit(15)
 
 
@@ -79,7 +80,7 @@ class SlurmPipelineExecutor(PipelineExecutor):
         mail_type: see https://slurm.schedmd.com/sbatch.html. Common values are (NONE, BEGIN, END, FAIL, REQUEUE, ALL)
         mail_user: email address to send notifications to
         requeue: requeue the job if it fails
-
+        tasks_per_job: each slurm job in the job array will run these many datatrove tasks. This reduces the total nb of slurm jobs launched.
     """
 
     def __init__(
@@ -111,13 +112,16 @@ def __init__(
         mail_type: str = "ALL",
         mail_user: str = None,
         requeue: bool = True,
+        srun_args: dict = None,
+        tasks_per_job: int = 1,
     ):
         super().__init__(pipeline, logging_dir, skip_completed)
         self.tasks = tasks
         self.workers = workers
         self.partition = partition
         self.cpus_per_task = cpus_per_task
         self.mem_per_cpu_gb = mem_per_cpu_gb
+        self.tasks_per_job = tasks_per_job
         self.time = time
         self.job_name = job_name
         self.qos = qos
@@ -136,6 +140,7 @@ def __init__(
         self.requeue_signals = requeue_signals
         self.mail_type = mail_type
         self.mail_user = mail_user
+        self.srun_args = srun_args
         self.slurm_logs_folder = (
             slurm_logs_folder
             if slurm_logs_folder
@@ -160,18 +165,23 @@ def run(self):
             slurm_rank = int(os.environ["SLURM_ARRAY_TASK_ID"]) + self.max_array_size * int(
                 os.environ.get("RUN_OFFSET", 0)
             )
+            ranks_to_run_range = (slurm_rank * self.tasks_per_job, (slurm_rank + 1) * self.tasks_per_job)
             with self.logging_dir.open("ranks_to_run.json", "r") as ranks_to_run_file:
                 all_ranks = json.load(ranks_to_run_file)
-            if slurm_rank >= len(all_ranks):
+            if ranks_to_run_range[0] >= len(all_ranks):
                 return
-            rank = all_ranks[slurm_rank]
 
             for ss in self.requeue_signals or []:
                 signal.signal(signal.Signals[ss], requeue_handler)
 
-            if self.randomize_start:
-                time.sleep(random.randint(0, 60 * 3))
-            self._run_for_rank(rank)
+            for rank_to_run in range(*ranks_to_run_range):
+                if rank_to_run >= len(all_ranks):
+                    break
+                rank = all_ranks[rank_to_run]
+
+                if self.randomize_start:
+                    time.sleep(random.randint(0, 60 * 3))
+                self._run_for_rank(rank)
         else:
             # we still have to launch the job
             self.launch_job()
@@ -244,12 +254,14 @@ def launch_job(self):
             # we actually save this (only once) to avoid race conditions
             json.dump(ranks_to_run, ranks_to_run_file)
 
-        max_array = min(len(ranks_to_run), self.max_array_size) if self.max_array_size != -1 else len(ranks_to_run)
+        nb_jobs_to_launch = math.ceil(len(ranks_to_run) / self.tasks_per_job)
+        max_array = min(nb_jobs_to_launch, self.max_array_size) if self.max_array_size != -1 else nb_jobs_to_launch
 
         # create the actual sbatch script
+        srun_args_str = " ".join([f"--{k}={v}" for k, v in self.srun_args.items()]) if self.srun_args else ""
         launch_file_contents = self.get_launch_file_contents(
             self.get_sbatch_args(max_array),
-            f"srun -l launch_pickled_pipeline {self.logging_dir.resolve_paths('executor.pik')}",
+            f"srun {srun_args_str} -l launch_pickled_pipeline {self.logging_dir.resolve_paths('executor.pik')}",
         )
         # save it
         with self.logging_dir.open("launch_script.slurm", "w") as launchscript_f:
@@ -261,7 +273,7 @@ def launch_job(self):
 
         # launch (possibly multiple) jobs
         launched_jobs = 0
-        while launched_jobs * max_array < len(ranks_to_run):
+        while launched_jobs * max_array < nb_jobs_to_launch:
             if launched_jobs and self.max_array_launch_parallel and self.stagger_max_array_jobs > 0:
                 time.sleep(self.stagger_max_array_jobs)
             args = [f"--export=ALL,RUN_OFFSET={launched_jobs}"]
 
@@ -284,6 +284,11 @@ def open_file(file: IO | str, mode="rt", **kwargs):
     return file
 
 
+def file_exists(path: str):
+    fs, a, fpath = get_fs_token_paths(path)
+    return fs.exists(fpath[0])
+
+
 def download_file(remote_path: str, local_path: str, progress: bool = True):
     fs, _, paths = get_fs_token_paths(remote_path)
     fs.get_file(
 
@@ -0,0 +1 @@
+from .n_grams import NGramsDecontConfig, NGramsDecontFilter, NGramsDecontIndexer
@@ -0,0 +1,228 @@
+"""
+Used for n-gram decontamination.
+First build an index using the tasks we want to use to decontaminate our training dataset.
+Then read your training data and apply the filter with the index loaded.
+"""
+
+import os
+from collections import defaultdict
+from concurrent.futures import ThreadPoolExecutor
+from dataclasses import dataclass, field
+from typing import Tuple
+
+import numpy as np
+from loguru import logger
+
+from datatrove.data import Document, DocumentsPipeline
+from datatrove.io import DataFolderLike, file_exists, get_datafolder, open_file
+from datatrove.pipeline.base import PipelineStep
+from datatrove.pipeline.filters.base_filter import BaseFilter
+from datatrove.pipeline.writers.disk_base import DiskWriter
+from datatrove.utils.binaryio import read_np_from_file
+from datatrove.utils.text import TextNormConfig, simplify_text, xxhash64
+
+
+@dataclass
+class NGramsDecontConfig:
+    """
+    Example for n_grams=4
+    query = ['A', 'B', 'C', 'D', 'E'] (the prompt/instruction)
+    label = ['F', 'G', 'H', 'I', 'J'] (the answer/gold)
+    Will find the following N-GRAMS in the training data:
+        'F G H I'
+        'G H I J'
+        + IF find_query_ngrams:
+            'A B C D'
+            'B C D E'
+        + IF find_overlap_ngrams:
+            'C D E F'
+            'D E F G'
+            'E F G H'
+    """
+
+    n_grams: int = 12
+    find_query_ngrams: bool = False  # enable to also check for matches in n-grams containing only the input/prompt
+    find_overlap_ngrams: bool = True  # will also find matches for n-grams containing BOTH input and query
+    norm_config: TextNormConfig = field(default_factory=TextNormConfig)
+
+
+DEFAULT_NGRAMS_DECONT_CONFIG = NGramsDecontConfig()
+
+
+class NGramsDecontIndexer(PipelineStep):
+    """
+    Creates a decontamination index (basically a list of uint64 hashes from ngrams) for each reference task.
+    Ways to provide task data:
+      - as input documents from the previous pipeline step with "text=label/correct answer"
+        and metadata={"query": query/prompt/input, "task": task name}
+      - as a list of strings in the format "suite|task" from the lighteval metadata table:
+      https://github.com/huggingface/lighteval/blob/main/src/lighteval/tasks/tasks_table.jsonl as `lighteval_tasks`
+      - a path to a text file containing one such list, with one "suite|task" per line as `lighteval_tasks`
+      you can also define your custom tasks with `custom_lighteval_tasks`. See explanation for `custom_tasks` here:
+      https://github.com/huggingface/lighteval/tree/main?tab=readme-ov-file#evaluate-a-model-on-extended-community-or-custom-tasks
+
+    """
+
+    type = "🦠 - DECONT"
+    name = "💥 N-grams build index"
+    _requires_dependencies = ["nltk", "lighteval", "xxhash"]
+
+    def __init__(
+        self,
+        output_folder: DataFolderLike,
+        lighteval_tasks: str | list[str] | None = None,  # list in the format suite|task or path to one such list
+        custom_lighteval_tasks: str | None = None,
+        config: NGramsDecontConfig = DEFAULT_NGRAMS_DECONT_CONFIG,
+        language: str = "english",
+    ):
+        super().__init__()
+        self.output_folder = get_datafolder(output_folder)
+        # parse list of tasks
+        if isinstance(lighteval_tasks, str):
+            if file_exists(lighteval_tasks):
+                with open_file(lighteval_tasks, "rt") as f:
+                    self.lighteval_tasks = f.read().strip().splitlines()
+            else:
+                self.lighteval_tasks = [lighteval_tasks]
+        else:
+            self.lighteval_tasks = lighteval_tasks
+        self.custom_lighteval_tasks = custom_lighteval_tasks
+        self.config = config
+        self.language = language
+
+    def compute_hashes(self, label: str, query: str | None = None) -> list[int]:
+        from nltk import ngrams
+        from nltk.tokenize import word_tokenize
+
+        label_tokens = word_tokenize(simplify_text(label, self.config.norm_config), language=self.language)
+        ngrams_to_compute = list(ngrams(label_tokens, self.config.n_grams))
+        if query is not None:
+            query_tokens = word_tokenize(simplify_text(query, self.config.norm_config), language=self.language)
+            if self.config.find_query_ngrams:
+                ngrams_to_compute.extend(ngrams(query_tokens, self.config.n_grams))
+            if self.config.find_overlap_ngrams:
+                # add tokens overlapping query and label
+                """
+                A, B, C, D, E | F, G, H, I, J
+                5 grams
+                B, C, D, E, F (-N + 1 + i:) + (:i + 1)
+                ...
+                E, F, G, H, I
+                """
+                ngrams_to_compute.extend(
+                    [
+                        query_tokens[-self.config.n_grams + 1 + i :] + label_tokens[: i + 1]
+                        for i in range(self.config.n_grams - 1)
+                        # make sure we actually get a list of size N
+                        if len(query_tokens) >= self.config.n_grams - 1 - i and len(label_tokens) >= i + 1
+                    ]
+                )
+        return list(map(xxhash64, map(" ".join, ngrams_to_compute)))
+
+    def run(self, data: DocumentsPipeline = None, rank: int = 0, world_size: int = 1):
+        if world_size != 1:
+            raise ValueError("Decontamination index building requires a single worker.")
+        hashes = defaultdict(set)
+        # use whatever date is parsed in with the following format:
+        # doc.text -> label
+        # doc.metadata["input"] -> input
+        if data:
+            for doc in data:
+                if not self.config.find_query_ngrams and "query" not in doc.metadata:
+                    raise ValueError(
+                        "only_label_ngrams is False but could not find 'query' field in documents metadata"
+                    )
+                hashes[doc.metadata.get("task", "input")].update(
+                    self.compute_hashes(doc.text, doc.metadata.get("query", None))
+                )
+
+        # parse data from lighteval defined tasks
+        from lighteval.tasks.lighteval_task import LightevalTask
+        from lighteval.tasks.registry import Registry
+
+        task_dict = Registry(cache_dir=os.getenv("HF_HOME")).get_task_dict(
+            self.lighteval_tasks, custom_tasks=self.custom_lighteval_tasks
+        )
+        LightevalTask.load_datasets(task_dict.values())
+
+        for task_name, task in task_dict.items():
+            for eval_doc in task.eval_docs():
+                try:
+                    golds = eval_doc.get_golds()
+                    query = eval_doc.query
+                except Exception as e:
+                    logger.warning(f"Error while fetching doc data: {e}")
+                    continue
+                for gold in golds:
+                    hashes[task_name].update(self.compute_hashes(gold, query))
+
+        for task_name, task_hashes in hashes.items():
+            hashes_array = np.array(list(task_hashes), dtype="<u8")
+            logger.info(f"Saving {len(task_hashes)} hashes for {task_name}")
+            with self.output_folder.open(f"{task_name.replace(' ', '_')}.index.hashes", mode="wb") as f:
+                if self.output_folder.is_local():
+                    hashes_array.tofile(f)
+                else:
+                    f.write(hashes_array.tobytes())
+
+
+class NGramsDecontFilter(BaseFilter):
+    """
+    Loads list of hashes created by the Indexer step.
+    For each document in the block's input, we will check if any of its ngrams are part of the reference eval tasks.
+    If so, they will be removed. The contaminated ngram and task where it was found will be saved in the removed
+    document's metadata.
+    """
+
+    type = "🦠 - DECONT"
+    name = "💥 N-grams decontaminate"
+    _requires_dependencies = ["nltk", "xxhash"]
+
+    def __init__(
+        self,
+        index_folder: DataFolderLike,
+        config: NGramsDecontConfig = DEFAULT_NGRAMS_DECONT_CONFIG,
+        exclusion_writer: DiskWriter = None,
+        language: str = "english",
+    ):
+        super().__init__()
+        self.index_folder = get_datafolder(index_folder)
+        self.config = config
+        self.exclusion_writer = exclusion_writer
+        self.language = language
+        self._index_hashes = None
+
+    def load_index_hashes(self):
+        def load_index_from_file(file):
+            with self.index_folder.open(file, mode="rb") as f:
+                return file, read_np_from_file(f, np.dtype("<u8"), self.index_folder.is_local()).tolist()
+
+        with ThreadPoolExecutor() as pool:
+            hashes = pool.map(load_index_from_file, self.index_folder.list_files())
+
+        self._index_hashes = {}
+        for filename, hashlist in hashes:
+            taskname = filename.removesuffix(".index.hashes")
+            logger.info(f"Loading {len(hashlist)} hashes for {taskname}")
+            for hash in hashlist:
+                self._index_hashes[hash] = taskname
+
+    def filter(self, doc: Document) -> bool | Tuple[bool, str]:
+        if self._index_hashes is None:
+            self.load_index_hashes()
+
+        from nltk import ngrams
+        from nltk.tokenize import word_tokenize
+
+        text_tokens = word_tokenize(simplify_text(doc.text, self.config.norm_config), language=self.language)
+        ngrams_to_compute = list(ngrams(text_tokens, self.config.n_grams))
+        for n_gram in map(" ".join, ngrams_to_compute):
+            task = self._index_hashes.get(xxhash64(n_gram), None)
+            if task is not None:
+                doc.metadata["contaminated_ngram"] = n_gram
+                doc.metadata["contaminated_task"] = task
+                self.stat_update(f"contaminated_{task}")
+                if ":" in task:
+                    self.stat_update(f"contaminated_tg_{task[:task.index(':')]}")
+                return False, "contaminated"
+        return True
@@ -50,7 +50,7 @@ class MinhashConfig:
     num_buckets: int = 14
     hashes_per_bucket: int = 8
 
-    use_64bit_hashes: bool = False
+    use_64bit_hashes: bool = True
     seed: int = 1
 
     norm_config: TextNormConfig = field(default_factory=TextNormConfig)
 
@@ -1,4 +1,4 @@
-from .c4_quality_filter import C4ParagraphFilter, C4QualityFilter
+from .c4_filters import C4BadWordsFilter, C4ParagraphFilter, C4QualityFilter
 from .fasttext_filter import FastTextClassifierFilter
 from .fineweb_quality_filter import FineWebQualityFilter
 from .gopher_quality_filter import GopherQualityFilter
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+from .n_grams import NGramsDecontConfig, NGramsDecontFilter, NGramsDecontIndexer`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-from .c4_quality_filter import C4ParagraphFilter, C4QualityFilter`
	`1`	`+from .c4_filters import C4BadWordsFilter, C4ParagraphFilter, C4QualityFilter`
`2`	`2`	`from .fasttext_filter import FastTextClassifierFilter`
`3`	`3`	`from .fineweb_quality_filter import FineWebQualityFilter`
`4`	`4`	`from .gopher_quality_filter import GopherQualityFilter`