add pyspark support

aersam · aersam · commit 1a7f8f38785c · 2025-04-09T09:23:53.000+02:00
diff --git a/bmsdna/table_rendering/excel.py b/bmsdna/table_rendering/excel.py
@@ -27,6 +27,7 @@
     from xlsxwriter.worksheet import Worksheet
     from xlsxwriter.workbook import Workbook
     import polars as pl
+    from pyspark.sql import DataFrame as SparkDataFrame
 
 
 class SheetOptions(TypedDict):
@@ -36,7 +37,7 @@ class SheetOptions(TypedDict):
 
 def render_into_sheet(
     configs: Sequence[ColumnConfig],
-    data: "Iterable[dict] | pl.DataFrame",
+    data: "Iterable[dict] | pl.DataFrame| SparkDataFrame",
     ws: "Worksheet",
     wb: "Workbook",
     sheet_options: SheetOptions = {},
@@ -46,16 +47,28 @@ def render_into_sheet(
     autofit=True,
     table_name: str | None = None,
 ) -> "Worksheet":
-    try:
-        import polars as pl
+    data_iter: Iterable[dict] | None = None
+    if data is None:
+        data_iter = []
+    if data_iter is None:
+        try:
+            from pyspark.sql import DataFrame as SparkDataFrame
 
-        if isinstance(data, pl.DataFrame):
-            data_iter: Iterable[dict] = data.iter_rows(named=True)
-        else:
-            data_iter: Iterable[dict] = data
-    except ImportError:
-        data_iter: Iterable[dict] = data  # type: ignore
+            if isinstance(data, SparkDataFrame):
+                data_iter = (d.asDict(True) for d in data.collect())
+        except ImportError:
+            pass
+    if data_iter is None:
+        try:
+            import polars as pl
 
+            if isinstance(data, pl.DataFrame):
+                data_iter = data.iter_rows(named=True)
+            else:
+                data_iter = cast(list[dict], data)
+        except ImportError:
+            data_iter = data  # type: ignore
+    assert data_iter is not None, f"Unknown data type for data: {type(data)}"
     import xlsxwriter
 
     ws.write_row(
diff --git a/bmsdna/table_rendering/html.py b/bmsdna/table_rendering/html.py
@@ -1,31 +1,45 @@
-from typing import Sequence, TYPE_CHECKING, Iterable, Callable
+from typing import Sequence, TYPE_CHECKING, Iterable, Callable, cast
 import json
 from bmsdna.table_rendering.config import ColumnConfig, ValueContext, format_value
 
 if TYPE_CHECKING:
     import polars as pl
+    from pyspark.sql import DataFrame as SparkDataFrame
 
 
 def render_html(
     configs: Sequence[ColumnConfig],
-    data: "Iterable[dict] | pl.DataFrame",
+    data: "Iterable[dict] | pl.DataFrame | SparkDataFrame",
     *,
     translator: Callable[[str, str], str] | None = None,
     add_classes: Sequence[str] | None = None,
     styles: str | dict[str, str] = "",
     tr_styles: str | dict[str, str] = "",
     td_styles: str | dict[str, str] = "",
 ):
-    try:
-        import polars as pl
+    data_iter: Iterable[dict] | None = None
+    if data is None:
+        data_iter = []
+    if data_iter is None:
+        try:
+            from pyspark.sql import DataFrame as SparkDataFrame
 
-        if isinstance(data, pl.DataFrame):
-            data_iter: Iterable[dict] = data.iter_rows(named=True)
-        else:
-            data_iter: Iterable[dict] = data
-    except ImportError:
-        data_iter: Iterable[dict] = data  # type: ignore
+            if isinstance(data, SparkDataFrame):
+                data_iter = (d.asDict(True) for d in data.collect())
+        except ImportError:
+            pass
+    if data_iter is None:
+        try:
+            import polars as pl
 
+            if isinstance(data, pl.DataFrame):
+                data_iter = data.iter_rows(named=True)
+            else:
+                data_iter = cast(list[dict], data)
+        except ImportError:
+            data_iter = data  # type: ignore
+
+    assert data_iter is not None, f"Unknown data type for data: {type(data)}"
     from dominate.tags import table, thead, tr, td, th, a, tbody
 
     tbl = table()
diff --git a/bmsdna/table_rendering/spark.py b/bmsdna/table_rendering/spark.py
@@ -0,0 +1,48 @@
+from typing import TYPE_CHECKING
+from bmsdna.table_rendering.config import ColumnConfig
+
+if TYPE_CHECKING:
+    from pyspark.sql import DataFrame
+
+
+def configs_from_pyspark(df: "DataFrame"):
+    from pyspark.sql.types import (
+        DateType,
+        TimestampType,
+        IntegerType,
+        FloatType,
+        LongType,
+        DoubleType,
+        DecimalType,
+    )
+
+    configs = []
+    for field in df.schema.fields:
+        name = field.name
+        dtype = field.dataType
+        format_nr_decimals = None
+
+        if name.startswith("_") or name.startswith("mail_"):
+            continue
+        if isinstance(dtype, DateType):
+            format_type = "date"
+        elif isinstance(dtype, TimestampType):
+            format_type = "datetime"
+        elif isinstance(dtype, IntegerType) or isinstance(dtype, LongType):
+            format_type = "int"
+        elif isinstance(dtype, DecimalType):
+            format_type = "int" if dtype.scale == 0 else "float"
+            format_nr_decimals = dtype.scale
+        elif isinstance(dtype, FloatType) or isinstance(dtype, DoubleType):
+            format_type = "float"
+        else:
+            format_type = None
+        configs.append(
+            ColumnConfig(
+                header=name,
+                field=name,
+                format=format_type,
+                format_nr_decimals=format_nr_decimals,
+            )
+        )
+    return configs
diff --git a/bmsdna/table_rendering/table_rendering.py b/bmsdna/table_rendering/table_rendering.py
@@ -28,6 +28,7 @@
     from xlsxwriter.worksheet import Worksheet
     from xlsxwriter.workbook import Workbook
     import polars as pl
+    from pyspark.sql import DataFrame as SparkDataFrame
 
 
 class TableRenderer:
@@ -39,6 +40,16 @@ def __init__(
         self.configs = configs
         self.translator = translator
 
+    @classmethod
+    def from_spark(
+        cls,
+        data: "SparkDataFrame",
+        translator: Callable[[str, str], str] | None = None,
+    ):
+        from .spark import configs_from_pyspark
+
+        return cls(configs_from_pyspark(data), translator=translator)
+
     @classmethod
     def from_df(
         cls, data: "pl.DataFrame", translator: Callable[[str, str], str] | None = None
@@ -108,7 +119,7 @@ def with_translator(self, translator: Callable[[str, str], str]):
 
     def render_html(
         self,
-        data: "Iterable[dict] | pl.DataFrame",
+        data: "Iterable[dict] | pl.DataFrame | SparkDataFrame",
         *,
         add_classes: Sequence[str] | None = None,
         styles: str | dict[str, str] = "",
@@ -131,7 +142,7 @@ def render_into_sheet(
         self,
         ws: "Worksheet",
         wb: "Workbook",
-        data: "Iterable[dict] | pl.DataFrame",
+        data: "Iterable[dict] | pl.DataFrame | SparkDataFrame",
         sheet_options: SheetOptions = {},
         *,
         offset_rows: int = 0,
@@ -151,7 +162,7 @@ def render_into_sheet(
 
 @overload
 def create_excel(
-    sheets: "Mapping[str, tuple[TableRenderer, list[dict]| pl.DataFrame]|tuple[TableRenderer, list[dict]| pl.DataFrame, SheetOptions]]",
+    sheets: "Mapping[str, tuple[TableRenderer, list[dict]| pl.DataFrame | SparkDataFrame]|tuple[TableRenderer, list[dict]| pl.DataFrame| SparkDataFrame, SheetOptions]]",
     excel: Path | None,
     *,
     workbook_options: dict | None = None,
@@ -160,21 +171,21 @@ def create_excel(
 
 @overload
 def create_excel(
-    sheets: "Mapping[str, tuple[TableRenderer, list[dict]| pl.DataFrame]|tuple[TableRenderer, list[dict]| pl.DataFrame, SheetOptions]]",
+    sheets: "Mapping[str, tuple[TableRenderer, list[dict]| pl.DataFrame| SparkDataFrame]|tuple[TableRenderer, list[dict]| pl.DataFrame| SparkDataFrame, SheetOptions]]",
     *,
     workbook_options: dict | None = None,
 ) -> Path: ...
 
 
 @overload
 def create_excel(
-    sheets: "Mapping[str, tuple[TableRenderer, list[dict]| pl.DataFrame]|tuple[TableRenderer, list[dict]| pl.DataFrame, SheetOptions]]",
+    sheets: "Mapping[str, tuple[TableRenderer, list[dict]| pl.DataFrame| SparkDataFrame]|tuple[TableRenderer, list[dict]| pl.DataFrame| SparkDataFrame, SheetOptions]]",
     excel: "Workbook",
 ) -> None: ...
 
 
 def create_excel(
-    sheets: "Mapping[str, tuple[TableRenderer, list[dict]| pl.DataFrame]|tuple[TableRenderer, list[dict]| pl.DataFrame, SheetOptions]]",
+    sheets: "Mapping[str, tuple[TableRenderer, list[dict]| pl.DataFrame| SparkDataFrame]|tuple[TableRenderer, list[dict]| pl.DataFrame| SparkDataFrame, SheetOptions]]",
     excel: "Path | Workbook | None" = None,
     *,
     workbook_options: dict | None = None,
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "bmsdna-table-rendering"
-version = "0.4.0"
+version = "0.5.0"
 description = ""
 authors = [{ name = "Adrian Ehrsam", email = "adrian.ehrsam@bmsuisse.ch" }]
 dependencies = [
@@ -14,6 +14,9 @@ readme = "README.md"
 
 [project.scripts]
 
+[project.optional-dependencies]
+spark = ["pyspark>=3.5.5"]
+
 [build-system]
 requires = ["hatchling"]
 build-backend = "hatchling.build"
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -0,0 +1,24 @@
+import pytest
+import os
+from pathlib import Path
+
+
+@pytest.fixture(scope="session")
+def spark_session():
+    if os.getenv("NO_SPARK", "0") == "1":
+        return None
+    if os.getenv("ODBCLAKE_TEST_CONFIGURATION", "spark").lower() != "spark":
+        return None
+    from pyspark.sql import SparkSession
+
+    jar = str(Path("tests/jar").absolute())
+    builder = (
+        SparkSession.builder.appName("test_spark")  # type: ignore
+        .config("spark.driver.extraClassPath", jar)
+        .config("spark.executor.extraClassPath", jar)
+        .config("spark.memory.fraction", 0.5)
+    )
+
+    spark = builder.getOrCreate()
+
+    return spark
diff --git a/tests/test_formats_spark.py b/tests/test_formats_spark.py
@@ -0,0 +1,58 @@
+from datetime import date, datetime
+import os
+import polars as pl
+
+from bmsdna.table_rendering.table_rendering import create_excel
+from pathlib import Path
+from typing import TYPE_CHECKING
+
+if TYPE_CHECKING:
+    from pyspark.sql import SparkSession
+
+
+def test_excel(spark_session: "SparkSession"):
+    fake_data = spark_session.createDataFrame(
+        [
+            {
+                "a": 1,
+                "b": 2.0,
+                "chf": 234,
+                "chf2": 234.67,
+                "date": date.fromisoformat("2022-01-01"),
+                "datetime": datetime.fromisoformat("2022-01-01 12:00:00"),
+            },
+            {
+                "a": 2,
+                "b": 3.0,
+                "chf": 2345,
+                "chf2": 2343.67,
+                "date": date.fromisoformat("2025-01-01"),
+                "datetime": datetime.fromisoformat("2022-01-01 18:00:00"),
+            },
+        ]
+    )
+    from bmsdna.table_rendering import TableRenderer
+
+    rend = TableRenderer.from_spark(fake_data).with_overwritten_configs(
+        {
+            "a": {"format": "int"},
+            "b": {"format": "float", "header_title": "B is a great col"},
+            "chf": {"format": "currency:chf"},
+            "chf2": {"format": "currency:chf"},
+        }
+    )
+    os.makedirs("tests/_data", exist_ok=True)
+    create_excel({"sheet1": (rend, fake_data)}, Path("tests/_data/test_excel.xlsx"))
+    import openpyxl
+
+    workbook = openpyxl.load_workbook("tests/_data/test_excel.xlsx")
+
+    # Get the first sheet
+    sheet = workbook.active
+    assert sheet is not None
+    # Get the number format in the "chf" column
+    column_letter = "D"  # Assuming "chf" is in column C
+    column = sheet[column_letter]
+    assert column[0].value == "chf2"
+    assert column[1].value == 234.67
+    assert "CHF" in column[1].number_format
diff --git a/uv.lock b/uv.lock