boozallen
diff --git a/‎foundation/foundation-mda/src/main/java/com/boozallen/aiops/mda/metamodel/element/pyspark/PySparkSchemaRecord.java
+7-3 b/‎foundation/foundation-mda/src/main/java/com/boozallen/aiops/mda/metamodel/element/pyspark/PySparkSchemaRecord.java
+7-3
diff --git a/‎foundation/foundation-mda/src/main/resources/templates/data-delivery-data-records/pyspark.schema.base.py.vm
+82-23 b/‎foundation/foundation-mda/src/main/resources/templates/data-delivery-data-records/pyspark.schema.base.py.vm
+82-23
@@ -34,6 +34,8 @@ public class PySparkSchemaRecord extends PythonRecord {
 
     private static final String SCHEMA_PACKAGE = "from ...schema.%s_schema import %sSchema";
     private static final String PYSPARK_ARRAY_IMPORT = "from pyspark.sql.types import ArrayType";
+    private static final String PYSPARK_COL_FUNCTIONS = "from pyspark.sql.functions import bool_and, explode, monotonically_increasing_id, row_number";
+    private static final String PYSPARK_WINDOW_IMPORT = "from pyspark.sql.window import Window";
     private Set<String> imports = new TreeSet<>();
 
     /**
@@ -79,12 +81,14 @@ public Set<String> getBaseImports() {
                 imports.add(dictionaryTypeImport);
             }
         }
-        boolean isArrayImportAdded = false;
+        boolean isPysparkImportAdded = false;
         for (Relation relation : getRelations()) {
             PythonRecordRelation wrappedRelation = new PythonRecordRelation(relation);
-            if(wrappedRelation.isOneToManyRelation() && !isArrayImportAdded) {
-                isArrayImportAdded = true;
+            if(wrappedRelation.isOneToManyRelation() && !isPysparkImportAdded) {
+                isPysparkImportAdded = true;
                 imports.add(PYSPARK_ARRAY_IMPORT);
+                imports.add(PYSPARK_COL_FUNCTIONS);
+                imports.add(PYSPARK_WINDOW_IMPORT);
             }
             imports.add(String.format(SCHEMA_PACKAGE, wrappedRelation.getSnakeCaseName(), relation.getName()));
         }
 
@@ -4,7 +4,7 @@ from pyspark.sql.dataframe import DataFrame
 from pyspark.sql.column import Column
 from pyspark.sql.types import StructType
 from pyspark.sql.types import DataType
-from pyspark.sql.functions import col, lit
+from pyspark.sql.functions import col, lit, when
 from typing import List
 import types
 #foreach ($import in $record.baseImports)
@@ -46,6 +46,7 @@ class ${record.capitalizedName}SchemaBase(ABC):
 
     def __init__(self):
         self._schema = StructType()
+        self.validation_result_column = '__VALIDATE_RESULT_${record.capitalizedName}_'
 
 ## Setting the nullable parameter to True for every column due to inconsistencies in the behavior from different data sources/toolings (Spark vs Pyspark)
 ## This allows all data to be read in, and None values will be filtered out as part of the validate_dataset method if the field is required
@@ -136,16 +137,35 @@ class ${record.capitalizedName}SchemaBase(ABC):
     def validate_dataset(self, ingest_dataset: DataFrame) -> DataFrame:
         return self.validate_dataset_with_prefix(ingest_dataset, "")
 
-    def validate_dataset_with_prefix(self, ingest_dataset: DataFrame, column_prefix: str) -> DataFrame:
+    def validate_dataset_with_prefix(self, ingest_dataset: DataFrame, column_prefix: str, valid_data_only = True) -> DataFrame:
         """
         Validates the given dataset and returns the lists of validated records.
         """
         data_with_validations = ingest_dataset
+  #if ($record.hasRelations())
+        # relation records validation
+    #foreach($relation in $record.relations)
+        #if(!$relation.isNullable())
+        # filter out null data for the required relation
+        data_with_validations = data_with_validations.withColumn(self.validation_result_column + self.${relationVars[$relation.name]} + "_IS_NOT_NULL",
+            col(column_prefix + self.${relationVars[$relation.name]}).isNotNull());
+
+        #end
+        #if($relation.isOneToManyRelation())
+        data_with_validations = self.with_${relation.snakeCaseName}_validation(data_with_validations, '${relation.columnName}')
+        #else
+        ${relation.snakeCaseName}_schema = ${relation.capitalizedName}Schema()
+        data_with_validations = ${relation.snakeCaseName}_schema.validate_dataset_with_prefix(data_with_validations, '${relation.columnName}.', False)
+        #end
+    #end
+#end
+
+        # record fields validation
         #foreach ($field in $record.fields)
         #if (${field.isRequired()})
         data_with_validations = data_with_validations.withColumn(self.${columnVars[$field.name]} + "_IS_NOT_NULL", col(column_prefix + self.${columnVars[$field.name]}).isNotNull())
         #else
-        data_with_validations = data_with_validations.withColumn(self.${columnVars[$field.name]} + "_IS_NULL", col(column_prefix + self.${columnVars[$field.name]}).isNull())        
+        data_with_validations = data_with_validations.withColumn(self.${columnVars[$field.name]} + "_IS_NULL", col(column_prefix + self.${columnVars[$field.name]}).isNull())
         #end
         #if (${field.getValidation().getMinValue()})
         data_with_validations = data_with_validations.withColumn(self.${columnVars[$field.name]} + "_GREATER_THAN_MIN", col(column_prefix + self.${columnVars[$field.name]}).cast('double') >= ${field.getValidation().getMinValue()})
@@ -172,18 +192,6 @@ class ${record.capitalizedName}SchemaBase(ABC):
         #end
         #end
 
-    ## TODO revise validation for relations
-    #if (false)
-        #foreach($relation in $record.relations)
-        #if($relation.isOneToManyRelation())
-        data_with_validations = data_with_validations.withColumn(self.${relationVars[$relation.name]} + "_VALID", lit(self._validate_with_${relation.snakeCaseName}_schema(data_with_validations.select(col(self.${relationVars[$relation.name]})))))
-        #else
-        ${relation.snakeCaseName}_schema = ${relation.name}Schema()
-        data_with_validations = data_with_validations.withColumn(self.${relationVars[$relation.name]} + "_VALID", lit(not ${relation.snakeCaseName}_schema.validate_dataset_with_prefix(data_with_validations.select(col(self.${relationVars[$relation.name]})), '${relation.columnName}.').isEmpty()))
-        #end
-        #end
-    #end
-
         column_filter_schemas = []
         validation_columns = [col for col in data_with_validations.columns if col not in ingest_dataset.columns]
 
@@ -194,6 +202,9 @@ class ${record.capitalizedName}SchemaBase(ABC):
         columns_grouped_by_field.append([col for col in validation_columns if col.startswith(self.${columnVars[$field.name]})])
         #end
 
+        if valid_data_only:
+            columns_grouped_by_field.append([col for col in validation_columns if col.startswith('__VALIDATE_')])
+
         # Create a schema filter for each field represented as a column group
         for column_group in columns_grouped_by_field:
             column_group_filter_schema = None
@@ -231,19 +242,67 @@ class ${record.capitalizedName}SchemaBase(ABC):
                 else:
                     final_column_filter_schemas = column_group_filter_schema
 
-            valid_data = data_with_validations.filter(final_column_filter_schemas)
+            if valid_data_only:
+                valid_data = data_with_validations.filter(final_column_filter_schemas)
+            else:
+                valid_data = data_with_validations.withColumn(self.validation_result_column, when(final_column_filter_schemas, lit(True)).otherwise(lit(False)))
+        else:
+            if not valid_data_only:
+                valid_data = data_with_validations.withColumn(self.validation_result_column, lit(True))
 
         valid_data = valid_data.drop(*validation_columns)
         return valid_data
 
-## TODO revise validation for relations
-#if (false)
-#foreach($relation in $record.relations)
-    #if($relation.isOneToManyRelation())
-    def _validate_with_${relation.snakeCaseName}_schema(self, dataset: DataFrame) -> bool:
-        raise NotImplementedError
+#set($hasOneToManyRelation = false)
+#foreach ($relation in $record.relations)
+    #if ($relation.isOneToManyRelation())
+    #set($hasOneToManyRelation = true)
+    def with_${relation.snakeCaseName}_validation(self, dataset: DataFrame, validation_column: str) -> DataFrame:
+        """
+        Validates the given ${relation.capitalizedName} 1:M multiplicity relation dataset against ${relation.capitalizedName}Schema
+        Returns A dataset with validation result __VALIDATE_${relationVars[$relation.name]} column
+        """
+        ${relation.snakeCaseName}_schema = ${relation.capitalizedName}Schema()
+        return self.validate_with_relation_record_schema(dataset, validation_column,
+                    ${relation.snakeCaseName}_schema.validate_dataset_with_prefix, ${relation.snakeCaseName}_schema.validation_result_column, #if (${relation.isNullable()}) False #else True #end)
+
     #end
 #end
-#end
 
+    #if ($hasOneToManyRelation)
+    def validate_with_relation_record_schema(self, ingest_dataset: DataFrame, validation_column: str, validate_dataset_with_prefix, relation_result_column: str, is_required=False) -> DataFrame:
+        """
+        Validates the given dataset with a given column where it contains array of ${relation.name} data records
+        against ${relation.name} schema using the given validate_dataset_with_prefix and drop_validation_columns functions
+        Returns the dataset including validation results in ${relation.name}_Valid column
+        """
+        id = "id"
+        expanded_column = "expanded_column"
+        aggregated_result_column = "bool_and({})".format(relation_result_column)
+        result_column = "__VALIDATE_{}".format(validation_column)
+
+        # add a row id
+        ingest_dataset = ingest_dataset.withColumn(id, row_number().over(Window.orderBy(monotonically_increasing_id())))
+
+        # flatten relation array record data for relation record validation
+        validation_dataset = ingest_dataset.select(validation_column, id).withColumn(expanded_column, explode(validation_column)).drop(validation_column)
+
+        # validate the flatten dataset
+        validation_dataset = validate_dataset_with_prefix(validation_dataset, expanded_column + ".", False) \
+            .drop(expanded_column)
+        # group the validation result with original dataset row id
+        validation_dataset = validation_dataset.groupBy(id).agg(bool_and(col(relation_result_column))) \
+            .withColumn(result_column, col(aggregated_result_column))
+
+        # cleanup
+        validation_dataset = validation_dataset.drop(validation_column, aggregated_result_column)
+        ingest_dataset = ingest_dataset.join(validation_dataset, id, "outer").drop(id)
+
+        if is_required:
+            ingest_dataset = ingest_dataset.withColumn(result_column, when(col(result_column).isNotNull() & col(result_column) == True, lit(True)).otherwise(lit(False)))
+        else:
+            ingest_dataset = ingest_dataset.withColumn(result_column, when(col(result_column).isNull() | col(result_column) == True, lit(True)).otherwise(lit(False)))
+
+        return ingest_dataset
+    #end
Original file line number	Diff line number	Diff line change
`@@ -34,6 +34,8 @@ public class PySparkSchemaRecord extends PythonRecord {`
`34`	`34`
`35`	`35`	`private static final String SCHEMA_PACKAGE = "from ...schema.%s_schema import %sSchema";`
`36`	`36`	`private static final String PYSPARK_ARRAY_IMPORT = "from pyspark.sql.types import ArrayType";`
	`37`	`+ private static final String PYSPARK_COL_FUNCTIONS = "from pyspark.sql.functions import bool_and, explode, monotonically_increasing_id, row_number";`
	`38`	`+ private static final String PYSPARK_WINDOW_IMPORT = "from pyspark.sql.window import Window";`
`37`	`39`	`private Set<String> imports = new TreeSet<>();`
`38`	`40`
`39`	`41`	`/**`
`@@ -79,12 +81,14 @@ public Set<String> getBaseImports() {`
`79`	`81`	`imports.add(dictionaryTypeImport);`
`80`	`82`	`}`
`81`	`83`	`}`
`82`		`- boolean isArrayImportAdded = false;`
	`84`	`+ boolean isPysparkImportAdded = false;`
`83`	`85`	`for (Relation relation : getRelations()) {`
`84`	`86`	`PythonRecordRelation wrappedRelation = new PythonRecordRelation(relation);`
`85`		`- if(wrappedRelation.isOneToManyRelation() && !isArrayImportAdded) {`
`86`		`- isArrayImportAdded = true;`
	`87`	`+ if(wrappedRelation.isOneToManyRelation() && !isPysparkImportAdded) {`
	`88`	`+ isPysparkImportAdded = true;`
`87`	`89`	`imports.add(PYSPARK_ARRAY_IMPORT);`
	`90`	`+ imports.add(PYSPARK_COL_FUNCTIONS);`
	`91`	`+ imports.add(PYSPARK_WINDOW_IMPORT);`
`88`	`92`	`}`
`89`	`93`	`imports.add(String.format(SCHEMA_PACKAGE, wrappedRelation.getSnakeCaseName(), relation.getName()));`
`90`	`94`	`}`