occiglot
diff --git a/Diff for: ‎.github/workflows/pypi-release.yml
+61 b/Diff for: ‎.github/workflows/pypi-release.yml
+61
diff --git a/Diff for: ‎.github/workflows/ci.yml renamed to ‎.github/workflows/testing.yml
+2-1 b/Diff for: ‎.github/workflows/ci.yml renamed to ‎.github/workflows/testing.yml
+2-1
diff --git a/Diff for: ‎examples/fineweb.py
+175 b/Diff for: ‎examples/fineweb.py
+175
diff --git a/Diff for: ‎examples/tokenize_from_hf_to_s3.py
+1-1 b/Diff for: ‎examples/tokenize_from_hf_to_s3.py
+1-1
diff --git a/Diff for: ‎examples/url_deduplication.py
+80 b/Diff for: ‎examples/url_deduplication.py
+80
diff --git a/Diff for: ‎pyproject.toml
+5-2 b/Diff for: ‎pyproject.toml
+5-2
@@ -0,0 +1,61 @@
+name: PyPI release
+on:
+  workflow_dispatch:
+
+jobs:
+  testing:
+    uses: ./.github/workflows/testing.yml
+  release:
+    needs: testing
+    runs-on: ubuntu-latest
+    env:
+      TWINE_USERNAME: __token__
+
+    steps:
+      - name: Checkout Repo
+        uses: actions/checkout@v3
+          
+      - name: Setup Python
+        uses: actions/setup-python@v4
+        with:
+          python-version: "3.10"
+
+      - name: Install build dependencies
+        run: |
+          python -m pip install --upgrade pip
+          pip install -U twine build
+      
+      - name: Build the dist files
+        run: python -m build .
+      
+      - name: Publish to the test PyPI
+        env:
+          TWINE_PASSWORD: ${{ secrets.TEST_PYPI_TOKEN }}
+        run: twine upload dist/* --repository=testpypi
+
+      - name: Test installing from test PyPI and running tests
+        run: |
+          pip install -i https://testpypi.python.org/pypi --extra-index-url https://pypi.org/simple datatrove[testing]
+          python -m nltk.downloader punkt
+          make test
+
+      - name: Get tag name
+        id: get_tag_name
+        run: |
+          echo TAG_NAME=$(grep '^version' pyproject.toml | head -1 | cut -d '"' -f 2) >> $GITHUB_OUTPUT
+        
+      - name: Tag the release
+        uses: actions/github-script@v7
+        with:
+          script: |
+            github.rest.git.createRef({
+              owner: context.repo.owner,
+              repo: context.repo.repo,
+              ref: 'refs/tags/v${{ steps.get_tag_name.outputs.TAG_NAME }}',
+              sha: context.sha
+            })
+
+      - name: Publish to PyPI
+        env:
+          TWINE_PASSWORD: ${{ secrets.PYPI_TOKEN }}
+        run: twine upload dist/* --repository=pypi
@@ -1,4 +1,4 @@
-name: CI
+name: Test & Check Code Quality
 
 on:
   pull_request:
@@ -7,6 +7,7 @@ on:
   push:
     branches:
       - main
+  workflow_call:
 
 jobs:
   check_code_quality:
 
@@ -0,0 +1,175 @@
+"""
+    This file contains the code used to process and create the
+    FineWeb dataset (https://huggingface.co/datasets/HuggingFaceFW/fineweb)
+"""
+from datatrove.executor.slurm import SlurmPipelineExecutor
+from datatrove.pipeline.dedup import MinhashDedupCluster, MinhashDedupFilter, MinhashDedupSignature
+from datatrove.pipeline.dedup.minhash import MinhashConfig, MinhashDedupBuckets
+from datatrove.pipeline.extractors import Trafilatura
+from datatrove.pipeline.filters import (
+    C4QualityFilter,
+    FineWebQualityFilter,
+    GopherQualityFilter,
+    GopherRepetitionFilter,
+    LanguageFilter,
+    URLFilter,
+)
+from datatrove.pipeline.formatters import PIIFormatter
+from datatrove.pipeline.readers import JsonlReader, WarcReader
+from datatrove.pipeline.tokens import TokensCounter
+from datatrove.pipeline.writers.jsonl import JsonlWriter
+
+
+"""
+    we first ran the following pipeline for each dump
+"""
+DUMP_TO_PROCESS = "CC-MAIN-2O23-5O"  # example
+
+MAIN_OUTPUT_PATH = "s3://some_s3_bucket"
+FILTERING_OUTPUT_PATH = f"{MAIN_OUTPUT_PATH}/base_processing"
+
+main_processing_executor = SlurmPipelineExecutor(
+    job_name=f"cc_{DUMP_TO_PROCESS}",
+    pipeline=[
+        WarcReader(
+            f"s3://commoncrawl/crawl-data/{DUMP_TO_PROCESS}/segments/",
+            glob_pattern="*/warc/*",  # we want the warc files
+            default_metadata={"dump": DUMP_TO_PROCESS},
+        ),
+        URLFilter(exclusion_writer=JsonlWriter(f"{FILTERING_OUTPUT_PATH}/removed/1_url/{DUMP_TO_PROCESS}")),
+        Trafilatura(favour_precision=True),
+        LanguageFilter(
+            exclusion_writer=JsonlWriter(
+                f"{FILTERING_OUTPUT_PATH}/2_non_english/",
+                output_filename="${language}/" + DUMP_TO_PROCESS + "/${rank}.jsonl.gz",
+                # folder structure: language/dump/file
+            )
+        ),
+        GopherRepetitionFilter(
+            exclusion_writer=JsonlWriter(f"{FILTERING_OUTPUT_PATH}/removed/3_gopher_rep/{DUMP_TO_PROCESS}")
+        ),
+        GopherQualityFilter(
+            exclusion_writer=JsonlWriter(f"{FILTERING_OUTPUT_PATH}/removed/4_gopher_qual/{DUMP_TO_PROCESS}")
+        ),
+        C4QualityFilter(
+            filter_no_terminal_punct=False,
+            exclusion_writer=JsonlWriter(f"{FILTERING_OUTPUT_PATH}/removed/5_c4/{DUMP_TO_PROCESS}"),
+        ),
+        FineWebQualityFilter(
+            exclusion_writer=JsonlWriter(f"{FILTERING_OUTPUT_PATH}/removed/6_fineweb_qual/{DUMP_TO_PROCESS}")
+        ),
+        JsonlWriter(f"{FILTERING_OUTPUT_PATH}/output/{DUMP_TO_PROCESS}"),
+    ],
+    tasks=8000,
+    time="10:00:00",
+    logging_dir=f"{MAIN_OUTPUT_PATH}/logs/base_processing/{DUMP_TO_PROCESS}",
+    slurm_logs_folder=f"logs/base_processing/{DUMP_TO_PROCESS}/slurm_logs",  # must be local
+    randomize_start=True,  # don't hit the bucket all at once with the list requests
+    mem_per_cpu_gb=2,
+    partition="hopper-cpu",
+)
+main_processing_executor.run()
+
+"""
+    we then applied minhash deduplication to each individual dump,
+"""
+
+# you can also change ngrams or the number of buckets and their size here
+minhash_config = MinhashConfig(
+    use_64bit_hashes=True,  # better precision -> fewer false positives (collisions)
+    num_buckets=14,
+    hashes_per_bucket=8,
+    n_grams=5,
+)
+
+S3_MINHASH_BASE_PATH = f"{MAIN_OUTPUT_PATH}/minhash"
+
+S3_LOGS_FOLDER = f"{MAIN_OUTPUT_PATH}/logs/minhash"
+LOCAL_LOGS_FOLDER = "logs/minhash"
+
+TOTAL_TASKS = 1000
+
+# this is the original data that we want to deduplicate
+INPUT_READER = JsonlReader(
+    f"{FILTERING_OUTPUT_PATH}/output/{DUMP_TO_PROCESS}"
+)  # this is the output from the first part
+
+# stage 1 computes minhash signatures for each task (each task gets a set of files)
+stage1 = SlurmPipelineExecutor(
+    job_name=f"mh1_{DUMP_TO_PROCESS}",
+    pipeline=[
+        INPUT_READER,
+        MinhashDedupSignature(
+            output_folder=f"{S3_MINHASH_BASE_PATH}/{DUMP_TO_PROCESS}/signatures", config=minhash_config
+        ),
+    ],
+    tasks=TOTAL_TASKS,
+    time="5:00:00",
+    partition="hopper-cpu",
+    logging_dir=f"{S3_LOGS_FOLDER}/signatures",
+    slurm_logs_folder=f"{LOCAL_LOGS_FOLDER}/signatures/slurm_logs",
+    randomize_start=True,
+    depends=main_processing_executor,  # only start after the first one completes
+)
+
+stage2 = SlurmPipelineExecutor(
+    job_name=f"mh2_{DUMP_TO_PROCESS}",
+    pipeline=[
+        MinhashDedupBuckets(
+            input_folder=f"{S3_MINHASH_BASE_PATH}/{DUMP_TO_PROCESS}/signatures",
+            output_folder=f"{S3_MINHASH_BASE_PATH}/{DUMP_TO_PROCESS}/buckets",
+            config=MinhashConfig(use_64bit_hashes=True),
+        ),
+    ],
+    tasks=minhash_config.num_buckets * 50,  # the code supports parallelizing each bucket. here we run 50
+    # workers per bucket
+    randomize_start=True,
+    logging_dir=f"{S3_LOGS_FOLDER}/buckets",
+    partition="hopper-cpu",
+    time="02:00:00",
+    mem_per_cpu_gb=4,
+    cpus_per_task=3,  # you can add run more (smaller) tasks if you do not have a lot of memory
+    depends=stage1,
+)
+
+
+stage3 = SlurmPipelineExecutor(
+    job_name=f"mh3_{DUMP_TO_PROCESS}",
+    pipeline=[
+        MinhashDedupCluster(
+            input_folder=f"{S3_MINHASH_BASE_PATH}/{DUMP_TO_PROCESS}/buckets",
+            output_folder=f"{S3_MINHASH_BASE_PATH}/{DUMP_TO_PROCESS}/remove_ids",
+            config=minhash_config,
+        ),
+    ],
+    tasks=1,  # this step runs on a single task
+    logging_dir=f"{S3_LOGS_FOLDER}/clustering",
+    partition="hopper-cpu",
+    time="30:00:00",  # and can also be quite slow. Usually not this slow though
+    mem_per_cpu_gb=25,
+    cpus_per_task=8,  # if you dedup a full dump, you do need a lot of memory for this one
+    depends=stage2,
+)
+
+
+stage4 = SlurmPipelineExecutor(
+    job_name=f"mh4_{DUMP_TO_PROCESS}",
+    pipeline=[
+        INPUT_READER,
+        TokensCounter(),  # you can remove this one, it's just a nice way to know how many tokens we have
+        # before and after dedup
+        MinhashDedupFilter(input_folder=f"{S3_MINHASH_BASE_PATH}/{DUMP_TO_PROCESS}/remove_ids"),
+        # run the PII removal
+        PIIFormatter(),
+        JsonlWriter(f"{S3_MINHASH_BASE_PATH}/{DUMP_TO_PROCESS}/deduped_output"),
+    ],
+    tasks=TOTAL_TASKS,
+    logging_dir=f"{S3_LOGS_FOLDER}/filtering",
+    partition="hopper-cpu",
+    time="5:00:00",
+    mem_per_cpu_gb=4,
+    depends=stage3,
+)
+
+# launch dedup pipelines
+stage4.run()
@@ -78,7 +78,7 @@
                 output_folder=WORKING_DIR,
                 local_working_dir=LOCAL_WORKING_DIR,
                 save_filename=f"{DATASET_NAME}_tokenized",
-                tokenizer_name=args.tokenizer,
+                tokenizer_name_or_path=args.tokenizer,
             ),
         ],
         # If you have a very small dataset, feel free to set this to "1" and remove the merge_executor
 
@@ -0,0 +1,80 @@
+import argparse
+
+import numpy as np
+
+from datatrove.executor.base import PipelineExecutor
+from datatrove.executor.local import LocalPipelineExecutor
+from datatrove.pipeline.dedup.url_dedup import (
+    UrlDedupConfig,
+    UrlDedupFilter,
+    UrlDedupSignature,
+    UrlFindDedups,
+)
+from datatrove.pipeline.readers import JsonlReader
+from datatrove.pipeline.writers.jsonl import JsonlWriter
+
+
+"""
+Example on how to use url-deduplication.
+To run url deduplication we need to run three different pipelines (same as sentence dedup)
+"""
+
+
+# modify url dedup hyper params here
+url_dedup_config = UrlDedupConfig(
+    # this will keep the longest document for each url
+    document_priority=lambda doc: min(np.iinfo(np.uint16).max, len(doc.text) // 4),
+    url_normalizer=lambda url: url.lower(),
+)
+
+FINDER_WORKERS = 4  # this will speed up/parallelize step 2
+
+LIMIT = -1  # for testing
+
+
+def run_example(args):
+    pipeline_1 = [
+        JsonlReader(args.input_folder, limit=LIMIT, progress=True),
+        UrlDedupSignature(
+            output_folder=f"{args.sigs_dup_folder}/sigs",
+            config=url_dedup_config,
+            finder_workers=FINDER_WORKERS,
+        ),
+    ]
+
+    pipeline_2 = [
+        UrlFindDedups(
+            data_folder=f"{args.sigs_dup_folder}/sigs",
+            output_folder=f"{args.sigs_dup_folder}/dups",
+            config=url_dedup_config,
+        )
+    ]
+
+    pipeline_3 = [
+        JsonlReader(data_folder=args.input_folder, limit=LIMIT, progress=True),
+        UrlDedupFilter(
+            data_folder=f"{args.sigs_dup_folder}/dups",
+            config=url_dedup_config,
+            exclusion_writer=JsonlWriter(output_folder=f"{args.base_output_folder}/removed"),
+        ),
+        JsonlWriter(output_folder=f"{args.base_output_folder}/output"),
+    ]
+
+    executor_1: PipelineExecutor = LocalPipelineExecutor(pipeline=pipeline_1, tasks=4)
+
+    executor_2: PipelineExecutor = LocalPipelineExecutor(pipeline=pipeline_2, tasks=FINDER_WORKERS)
+
+    executor_3: PipelineExecutor = LocalPipelineExecutor(pipeline=pipeline_3, tasks=4)
+
+    print(executor_1.run())
+    print(executor_2.run())
+    print(executor_3.run())
+
+
+parser = argparse.ArgumentParser(description="URL Deduplication")
+parser.add_argument("input_folder", help="Input folder path")
+parser.add_argument("base_output_folder", help="Base output folder path")
+parser.add_argument("sigs_dup_folder", help="sigs-dup folder path")
+if __name__ == "__main__":
+    args = parser.parse_args()
+    run_example(args)
@@ -1,6 +1,6 @@
 [project]
 name = "datatrove"
-version = "0.0.1"  # expected format is one of x.y.z.dev0, or x.y.z.rc1 or x.y.z (no to dashes, yes to dots)
+version = "0.2.0"  # expected format is one of x.y.z.dev0, or x.y.z.rc1 or x.y.z (no to dashes, yes to dots)
 description = "HuggingFace library to process and filter large amounts of webdata"
 readme = "README.md"
 authors = [
@@ -52,8 +52,11 @@ processing = [
     "inscriptis",
 #    "readability-lxml @ git+https://github.com/huggingface/python-readability.git@speedup",
     "tldextract",
-    "trafilatura",
+    "trafilatura>=1.8.0",
     "tokenizers",
+    "ftfy",
+    "fasteners",
+    "xxhash"
 ]
 quality = [
   "ruff>=0.1.5"