boozallen
diff --git a/‎DRAFT_RELEASE_NOTES.md
+1-1 b/‎DRAFT_RELEASE_NOTES.md
+1-1
diff --git a/‎foundation/foundation-mda/src/main/java/com/boozallen/aiops/mda/metamodel/element/pyspark/PySparkSchemaRecord.java
+13 b/‎foundation/foundation-mda/src/main/java/com/boozallen/aiops/mda/metamodel/element/pyspark/PySparkSchemaRecord.java
+13
diff --git a/‎foundation/foundation-mda/src/main/resources/templates/data-delivery-data-records/pyspark.schema.base.py.vm
+52-12 b/‎foundation/foundation-mda/src/main/resources/templates/data-delivery-data-records/pyspark.schema.base.py.vm
+52-12
diff --git a/‎foundation/foundation-mda/src/main/resources/templates/data-delivery-data-records/record.base.py.vm
+24-7 b/‎foundation/foundation-mda/src/main/resources/templates/data-delivery-data-records/record.base.py.vm
+24-7
diff --git a/‎foundation/foundation-mda/src/main/resources/templates/data-delivery-data-records/spark.schema.base.java.vm
+4-8 b/‎foundation/foundation-mda/src/main/resources/templates/data-delivery-data-records/spark.schema.base.java.vm
+4-8
diff --git a/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/dictionaries/AddressDictionary.json
+2-2 b/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/dictionaries/AddressDictionary.json
+2-2
diff --git a/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/dictionaries/PysparkDataDeliveryDictionary.json
+5-1 b/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/dictionaries/PysparkDataDeliveryDictionary.json
+5-1
diff --git a/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/pipelines/PysparkDataDeliveryPatterns.json
+1-1 b/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/pipelines/PysparkDataDeliveryPatterns.json
+1-1
diff --git a/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/records/Address.json
+5-2 b/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/records/Address.json
+5-2
diff --git a/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/records/City.json
+29 b/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/records/City.json
+29
diff --git a/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/records/CustomData.json
+3 b/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/records/CustomData.json
+3
diff --git a/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/records/Mayor.json
+25 b/‎test/test-mda-models/aissemble-test-data-delivery-pyspark-model/src/aissemble_test_data_delivery_pyspark_model/resources/records/Mayor.json
+25
@@ -15,7 +15,7 @@ Spark and PySpark have been upgraded from version 3.5.2 to 3.5.4.
 ## Record Relation
 To enable nested data records, we have added a new relation feature to the record metamodel. This allows records to reference other records. For more details, refer to the [Record Relation Options](https://boozallen.github.io/aissemble/aissemble/current-dev/record-metamodel.html#_record_relation_options).
 Several features are still a work in progress:
-- PySpark schema generation for records with any multiplicity
+- PySpark and Spark based validation for records with a One to Many multiplicity. (Object validation is available.)
 
 ## Helm Charts Resource Specification
 The following Helm charts have been updated to include the configuration options for specifying container resource requests/limits:
 
@@ -21,7 +21,9 @@
 
 import com.boozallen.aiops.mda.metamodel.element.Record;
 import com.boozallen.aiops.mda.metamodel.element.RecordField;
+import com.boozallen.aiops.mda.metamodel.element.Relation;
 import com.boozallen.aiops.mda.metamodel.element.python.PythonRecord;
+import com.boozallen.aiops.mda.metamodel.element.python.PythonRecordRelation;
 
 /**
  * Decorates Record with PySpark-specific functionality.
@@ -30,6 +32,8 @@ public class PySparkSchemaRecord extends PythonRecord {
 
     private static final Logger logger = LoggerFactory.getLogger(PySparkSchemaRecord.class);
 
+    private static final String SCHEMA_PACKAGE = "from ...schema.%s_schema import %sSchema";
+    private static final String PYSPARK_ARRAY_IMPORT = "from pyspark.sql.types import ArrayType";
     private Set<String> imports = new TreeSet<>();
 
     /**
@@ -75,6 +79,15 @@ public Set<String> getBaseImports() {
                 imports.add(dictionaryTypeImport);
             }
         }
+        boolean isArrayImportAdded = false;
+        for (Relation relation : getRelations()) {
+            PythonRecordRelation wrappedRelation = new PythonRecordRelation(relation);
+            if(wrappedRelation.isOneToManyRelation() && !isArrayImportAdded) {
+                isArrayImportAdded = true;
+                imports.add(PYSPARK_ARRAY_IMPORT);
+            }
+            imports.add(String.format(SCHEMA_PACKAGE, wrappedRelation.getSnakeCaseName(), relation.getName()));
+        }
 
         return imports;
     }
 
@@ -1,9 +1,10 @@
 from abc import ABC
+
 from pyspark.sql.dataframe import DataFrame
 from pyspark.sql.column import Column
 from pyspark.sql.types import StructType
 from pyspark.sql.types import DataType
-from pyspark.sql.functions import col
+from pyspark.sql.functions import col, lit
 from typing import List
 import types
 #foreach ($import in $record.baseImports)
@@ -34,6 +35,9 @@ class ${record.capitalizedName}SchemaBase(ABC):
 #foreach ($field in $record.fields)
     ${field.upperSnakecaseName}_COLUMN: str = '${field.sparkAttributes.columnName}'
 #end
+#foreach ($relation in $record.relations)
+    ${relation.upperSnakecaseName}_COLUMN: str = '${relation.columnName}'
+#end
 
 
     def __init__(self):
@@ -47,19 +51,33 @@ class ${record.capitalizedName}SchemaBase(ABC):
         self.add(${record.capitalizedName}SchemaBase.${field.upperSnakecaseName}_COLUMN, ${field.shortType}(), ${nullable})
       #end
   #end
+  #foreach ($relation in $record.relations)
+      #set ($nullable = "#if($relation.isNullable())True#{else}False#end")
+      #if ($relation.isOneToManyRelation())
+        self.add(${record.capitalizedName}SchemaBase.${relation.upperSnakecaseName}_COLUMN, ArrayType(${relation.capitalizedName}Schema().struct_type), ${nullable})
+      #else
+        self.add(${record.capitalizedName}SchemaBase.${relation.upperSnakecaseName}_COLUMN, ${relation.capitalizedName}Schema().struct_type, ${nullable})
+      #end
+  #end
 
-  #if ($record.hasFields())
+  #if ($record.hasFields() || $record.hasRelations())
     def cast(self, dataset: DataFrame) -> DataFrame:
         """
         Returns the given dataset cast to this schema.
         """
     #foreach ($field in $record.fields)
         ${field.snakeCaseName}_type = self.get_data_type(${record.capitalizedName}SchemaBase.${field.upperSnakecaseName}_COLUMN)
     #end
+    #foreach ($relation in $record.relations)
+        ${relation.snakeCaseName}_type = self.get_data_type(${record.capitalizedName}SchemaBase.${relation.upperSnakecaseName}_COLUMN)
+    #end
 
         return dataset \
         #foreach ($field in $record.fields)
-            .withColumn(${record.capitalizedName}SchemaBase.${field.upperSnakecaseName}_COLUMN, dataset[${record.capitalizedName}SchemaBase.${field.upperSnakecaseName}_COLUMN].cast(${field.snakeCaseName}_type))#if ($foreach.hasNext) \\#end
+            .withColumn(${record.capitalizedName}SchemaBase.${field.upperSnakecaseName}_COLUMN, dataset[${record.capitalizedName}SchemaBase.${field.upperSnakecaseName}_COLUMN].cast(${field.snakeCaseName}_type))#if ($foreach.hasNext || $record.hasRelations()) \\#end
+        #end
+        #foreach ($relation in $record.relations)
+            .withColumn(${record.capitalizedName}SchemaBase.${relation.upperSnakecaseName}_COLUMN, dataset[${record.capitalizedName}SchemaBase.${relation.upperSnakecaseName}_COLUMN].cast(${relation.snakeCaseName}_type))#if ($foreach.hasNext) \\#end
         #end
   #end
 
@@ -111,39 +129,52 @@ class ${record.capitalizedName}SchemaBase(ABC):
             self._schema = update
 
     def validate_dataset(self, ingest_dataset: DataFrame) -> DataFrame:
+        return self.validate_dataset_with_prefix(ingest_dataset, "")
+
+    def validate_dataset_with_prefix(self, ingest_dataset: DataFrame, column_prefix: str) -> DataFrame:
         """
         Validates the given dataset and returns the lists of validated records.
         """
         data_with_validations = ingest_dataset
         #foreach ($field in $record.fields)
         #set ( $columnName = "#if($field.column)$field.column#{else}$field.upperSnakecaseName#end" )
         #if (${field.isRequired()})
-        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_IS_NOT_NULL", col("${columnName}").isNotNull())
+        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_IS_NOT_NULL", col(column_prefix + "${columnName}").isNotNull())
         #end
         #if (${field.getValidation().getMinValue()})
-        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_GREATER_THAN_MIN", col("${columnName}").cast('double') >= ${field.getValidation().getMinValue()})
+        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_GREATER_THAN_MIN", col(column_prefix + "${columnName}").cast('double') >= ${field.getValidation().getMinValue()})
         #end
         #if (${field.getValidation().getMaxValue()})
-        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_LESS_THAN_MAX", col("${columnName}").cast('double') <= ${field.getValidation().getMaxValue()})
+        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_LESS_THAN_MAX", col(column_prefix + "${columnName}").cast('double') <= ${field.getValidation().getMaxValue()})
         #end
         #if (${field.getValidation().getScale()})
-        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_MATCHES_SCALE", col("${columnName}").cast(StringType()).rlike(r"^[0-9]*(?:\.[0-9]{0,${field.getValidation().getScale()}})?$"))
+        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_MATCHES_SCALE", col(column_prefix + "${columnName}").cast(StringType()).rlike(r"^[0-9]*(?:\.[0-9]{0,${field.getValidation().getScale()}})?$"))
         #end
         #if (${field.getValidation().getMinLength()})
-        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_GREATER_THAN_MAX_LENGTH", col("${columnName}").rlike("^.{${field.getValidation().getMinLength()},}"))
+        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_GREATER_THAN_OR_EQUAL_TO_MIN_LENGTH", col(column_prefix + "${columnName}").rlike("^.{${field.getValidation().getMinLength()},}"))
         #end
         #if (${field.getValidation().getMaxLength()})
-        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_LESS_THAN_MAX_LENGTH", col("${columnName}").rlike("^.{${field.getValidation().getMaxLength()},}").eqNullSafe(False))
+        #set($max = ${field.getValidation().getMaxLength()} + 1)
+        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_LESS_THAN_OR_EQUAL_TO_MAX_LENGTH", col(column_prefix + "${columnName}").rlike("^.{$max,}").eqNullSafe(False))
         #end
         #foreach ($format in $field.getValidation().getFormats())
         #if ($foreach.first)
-        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_MATCHES_FORMAT", col("${columnName}").rlike("$format.replace("\","\\")")#if($foreach.last))#end
+        data_with_validations = data_with_validations.withColumn("${field.upperSnakecaseName}_MATCHES_FORMAT", col(column_prefix + "${columnName}").rlike("$format.replace("\","\\")")#if($foreach.last))#end
         #else
-            | col("${columnName}").rlike("$format.replace("\","\\")")#if($foreach.last))#end
+            | col(column_prefix + "${columnName}").rlike("$format.replace("\","\\")")#if($foreach.last))#end
         #end
         #end
         #end
 
+        #foreach($relation in $record.relations)
+        #if($relation.isOneToManyRelation())
+        data_with_validations = data_with_validations.withColumn(self.${relation.upperSnakecaseName}_COLUMN + "_VALID", lit(self._validate_with_${relation.snakeCaseName}_schema(data_with_validations.select(col(self.${relation.upperSnakecaseName}_COLUMN)))))
+        #else
+        ${relation.snakeCaseName}_schema = ${relation.name}Schema()
+        data_with_validations = data_with_validations.withColumn(self.${relation.upperSnakecaseName}_COLUMN + "_VALID", lit(not ${relation.snakeCaseName}_schema.validate_dataset_with_prefix(data_with_validations.select(col(self.${relation.upperSnakecaseName}_COLUMN)), '${relation.columnName}.').isEmpty()))
+        #end
+        #end
+
         validation_columns = [x for x in data_with_validations.columns if x not in ingest_dataset.columns]
 
         # Schema for filtering for valid data
@@ -159,4 +190,13 @@ class ${record.capitalizedName}SchemaBase(ABC):
         if isinstance(filter_schema, Column):
             valid_data = data_with_validations.filter(filter_schema)
         valid_data = valid_data.drop(*validation_columns)
-        return valid_data
+        return valid_data
+
+#foreach($relation in $record.relations)
+    #if($relation.isOneToManyRelation())
+    def _validate_with_${relation.snakeCaseName}_schema(self, dataset: DataFrame) -> bool:
+        raise NotImplementedError
+    #end
+#end
+
+
@@ -37,6 +37,7 @@ class ${record.capitalizedName}Base(ABC):
         Creates a record with the given PySpark dataframe row's data.
         """
         record = cls()
+        #if($record.hasFields() || $record.hasRelations())
         if row is not None:
         #foreach ($field in $record.fields)
             #set ($rowField = "#if($field.column)${field.column}#else${field.name}#end")
@@ -46,7 +47,15 @@ class ${record.capitalizedName}Base(ABC):
             #else
             record.${field.snakeCaseName} = ${field.snakeCaseName}_value
             #end
-
+        #end
+        #foreach ($relation in $record.relations)
+            ${relation.snakeCaseName}_value = cls.get_row_value(row, '${relation.columnName}')
+            #if($relation.isOneToManyRelation())
+            record.${relation.snakeCaseName} = [${relation.name}.from_row($relation.snakeCaseName) for $relation.snakeCaseName in ${relation.snakeCaseName}_value]
+            #else
+            record.${relation.snakeCaseName} = ${relation.name}.from_row(${relation.snakeCaseName}_value)
+            #end
+        #end
         #end
         return record
 
@@ -58,18 +67,26 @@ class ${record.capitalizedName}Base(ABC):
         """
         return row[field] if field in row else None
 
+
     def as_row(self) -> Row:
         """
         Returns this record as a PySpark dataframe row.
         """
         return Row(
-            #foreach ($field in $record.fields)
-                #if ($field.type.dictionaryType.isComplex())
-                    self.${field.snakeCaseName}.value if self.${field.snakeCaseName} is not None else None#if ($foreach.hasNext),#end
-                #else
-                    self.${field.snakeCaseName}#if ($foreach.hasNext),#end
-                #end
+        #foreach ($field in $record.fields)
+            #if ($field.type.dictionaryType.isComplex())
+            self.${field.snakeCaseName}.value if self.${field.snakeCaseName} is not None else None#if ($foreach.hasNext || $record.hasRelations()),#end
+            #else
+            self.${field.snakeCaseName}#if ($foreach.hasNext || $record.hasRelations()),#end
             #end
+        #end
+        #foreach($relation in $record.relations)
+            #if ($relation.isOneToManyRelation())
+            [${relation.snakeCaseName}.as_row() for ${relation.snakeCaseName} in self.${relation.snakeCaseName}] if self.${relation.snakeCaseName} is not None else None#if ($foreach.hasNext),#end
+            #else
+            self.${relation.snakeCaseName}.as_row() if self.${relation.snakeCaseName} is not None else None#if ($foreach.hasNext),#end
+            #end
+        #end
         )
 
     #end
 
@@ -283,17 +283,13 @@ public abstract class ${record.capitalizedName}SchemaBase extends SparkSchema {
     /**
      * Validate the given ${relation.capitalizedName} 1:M multiplicity relation dataset against ${relation.capitalizedName}Schema.
      * A false will be return if any one of the relation records schema validation is failed.
+     * Currently not implemented so it throws a NotImplementedException
      * @param ${relation.uncapitalizedName}Dataset
-     * @return boolean value to indicate validation result
+     * @return NotImplementedException
      */
     private boolean validateWith${relation.capitalizedName}Schema(Dataset<Row> ${relation.uncapitalizedName}Dataset) {
-        ${relation.capitalizedName}Schema ${relation.uncapitalizedName}Schema = new ${relation.capitalizedName}Schema();
-        // flatten ${relation.uncapitalizedName} data
-        Dataset<Row> flattenDataset = ${relation.uncapitalizedName}Dataset.select(explode(col(${relationVars[$relation.name]})));
-
-        // validate ${relation.capitalizedName}Schema
-        Dataset<Row> validData = ${relation.uncapitalizedName}Schema.validateDataFrame(flattenDataset, "col.");
-        return flattenDataset.count() == validData.count();
+        throw new NotImplementedException(
+                "Validation against relations with One to Many multiplicity is not yet implemented");
     }
 
 
 
@@ -22,12 +22,12 @@
       }
     },
     {
-      "name": "state",
+      "name": "stateAddress",
       "simpleType": "string",
       "validation": {
         "maxLength": 2,
         "minLength": 2
       }
     }
   ]
-}
+}
@@ -59,6 +59,10 @@
 		{
 			"name": "binarydata",
 			"simpleType": "bytearray"
+		},
+		{
+			"name": "string",
+			"simpleType": "string"
 		}
 	]
-}
+}
@@ -347,4 +347,4 @@
 			}
 		}
 	]
-}
+}
@@ -2,6 +2,9 @@
   "name": "Address",
   "package": "com.boozallen.aiops.mda.pattern.record",
   "description": "Address custom record",
+  "frameworks": [{
+    "name": "pyspark"
+  }],
   "fields": [
     {
       "name": "street",
@@ -27,9 +30,9 @@
     {
       "name": "state",
       "type": {
-        "name": "state",
+        "name": "stateAddress",
         "package": "com.boozallen.aiops.mda.pattern.dictionary"
       }
     }
   ]
-}
+}
@@ -0,0 +1,29 @@
+{
+  "name": "City",
+  "package": "com.boozallen.aiops.mda.pattern.record",
+  "description": "Example City record for testing Spark Java Data Relations",
+  "frameworks": [{
+    "name": "pyspark"
+  }],
+  "relations": [
+    {
+      "name": "Mayor",
+      "package": "com.boozallen.aiops.mda.pattern.records",
+      "multiplicity": "1-1",
+      "column": "MAYOR",
+      "documentation": "There is one mayor in the city"
+    },
+    {
+      "name": "State",
+      "package": "com.boozallen.aiops.mda.pattern.records",
+      "multiplicity": "M-1",
+      "column": "STATE"
+    },
+    {
+      "name": "Street",
+      "package": "com.boozallen.aiops.mda.pattern.records",
+      "multiplicity": "1-M",
+      "column": "STREET"
+    }
+  ]
+}
@@ -2,6 +2,9 @@
 	"name": "CustomData",
 	"package": "com.boozallen.aiops.mda.pattern.record",
 	"description": "Example custom record for Pyspark Data Delivery Patterns",
+	"frameworks": [{
+		"name": "pyspark"
+	}],
 	"fields": [
 		{
 			"name": "customField",
 
@@ -0,0 +1,25 @@
+{
+  "name": "Mayor",
+  "package": "com.boozallen.aiops.mda.pattern.record",
+  "description": "Example Mayor record for testing Spark Java Data Relations",
+  "frameworks": [{
+    "name": "pyspark"
+  }],
+  "fields": [
+    {
+      "name": "name",
+      "type": {
+        "name": "string",
+        "package": "com.boozallen.aiops.mda.pattern.dictionary"
+      }
+    },
+    {
+      "name": "integerValidation",
+      "type": {
+        "name": "integerWithValidation",
+        "package": "com.boozallen.aiops.mda.pattern.dictionary"
+      },
+      "column": "int_v8n"
+    }
+  ]
+}
Original file line number	Diff line number	Diff line change
`@@ -22,12 +22,12 @@`
`22`	`22`	`}`
`23`	`23`	`},`
`24`	`24`	`{`
`25`		`- "name": "state",`
	`25`	`+ "name": "stateAddress",`
`26`	`26`	`"simpleType": "string",`
`27`	`27`	`"validation": {`
`28`	`28`	`"maxLength": 2,`
`29`	`29`	`"minLength": 2`
`30`	`30`	`}`
`31`	`31`	`}`
`32`	`32`	`]`
`33`		`-}`
	`33`	`+}`
Original file line number	Diff line number	Diff line change
`@@ -59,6 +59,10 @@`
`59`	`59`	`{`
`60`	`60`	`"name": "binarydata",`
`61`	`61`	`"simpleType": "bytearray"`
	`62`	`+ },`
	`63`	`+ {`
	`64`	`+ "name": "string",`
	`65`	`+ "simpleType": "string"`
`62`	`66`	`}`
`63`	`67`	`]`
`64`		`-}`
	`68`	`+}`
Original file line number	Diff line number	Diff line change
`@@ -347,4 +347,4 @@`
`347`	`347`	`}`
`348`	`348`	`}`
`349`	`349`	`]`
`350`		`-}`
	`350`	`+}`
Original file line number	Diff line number	Diff line change
`@@ -2,6 +2,9 @@`
`2`	`2`	`"name": "Address",`
`3`	`3`	`"package": "com.boozallen.aiops.mda.pattern.record",`
`4`	`4`	`"description": "Address custom record",`
	`5`	`+ "frameworks": [{`
	`6`	`+ "name": "pyspark"`
	`7`	`+ }],`
`5`	`8`	`"fields": [`
`6`	`9`	`{`
`7`	`10`	`"name": "street",`
`@@ -27,9 +30,9 @@`
`27`	`30`	`{`
`28`	`31`	`"name": "state",`
`29`	`32`	`"type": {`
`30`		`- "name": "state",`
	`33`	`+ "name": "stateAddress",`
`31`	`34`	`"package": "com.boozallen.aiops.mda.pattern.dictionary"`
`32`	`35`	`}`
`33`	`36`	`}`
`34`	`37`	`]`
`35`		`-}`
	`38`	`+}`