Enhancement: Support limit pushdown and top-n pushdown. (#56)

yuanoOo · web-flow · commit 4adf65e4c396 · 2025-04-27T17:49:10.000+08:00
* Enhancement: Support limit pushdown and top-n pushdown.
diff --git a/spark-connector-oceanbase/spark-connector-oceanbase-3.2/pom.xml b/spark-connector-oceanbase/spark-connector-oceanbase-3.2/pom.xml
@@ -54,7 +54,68 @@ under the License.
     </dependencies>
 
     <build>
+        <pluginManagement>
+            <plugins>
+                <plugin>
+                    <groupId>net.alchim31.maven</groupId>
+                    <artifactId>scala-maven-plugin</artifactId>
+                    <version>${scala-maven-plugin.version}</version>
+                    <configuration>
+                        <args>
+                            <arg>-nobootcp</arg>
+                            <arg>-target:jvm-${target.java.version}</arg>
+                        </args>
+                        <checkMultipleScalaVersions>false</checkMultipleScalaVersions>
+                    </configuration>
+                </plugin>
+                <plugin>
+                    <groupId>org.apache.maven.plugins</groupId>
+                    <artifactId>maven-compiler-plugin</artifactId>
+                </plugin>
+            </plugins>
+        </pluginManagement>
         <plugins>
+            <plugin>
+                <groupId>net.alchim31.maven</groupId>
+                <artifactId>scala-maven-plugin</artifactId>
+                <version>${scala-maven-plugin.version}</version>
+                <executions>
+                    <!-- Run scala compiler in the process-resources phase, so that dependencies on
+                            scala classes can be resolved later in the (Java) compile phase -->
+                    <execution>
+                        <id>scala-compile-first</id>
+                        <goals>
+                            <goal>add-source</goal>
+                            <goal>compile</goal>
+                        </goals>
+                        <phase>process-resources</phase>
+                    </execution>
+
+                    <!-- Run scala compiler in the process-test-resources phase, so that dependencies on
+                             scala classes can be resolved later in the (Java) test-compile phase -->
+                    <execution>
+                        <id>scala-test-compile</id>
+                        <goals>
+                            <goal>testCompile</goal>
+                        </goals>
+                        <phase>process-test-resources</phase>
+                    </execution>
+                </executions>
+            </plugin>
+            <plugin>
+                <groupId>com.diffplug.spotless</groupId>
+                <artifactId>spotless-maven-plugin</artifactId>
+                <version>${spotless.version}</version>
+                <configuration>
+                    <scala>
+                        <scalafmt>
+                            <version>3.4.3</version>
+                            <!-- This file is in the root of the project to make sure IntelliJ picks it up automatically -->
+                            <file>${project.basedir}/../../.scalafmt.conf</file>
+                        </scalafmt>
+                    </scala>
+                </configuration>
+            </plugin>
             <plugin>
                 <groupId>org.apache.maven.plugins</groupId>
                 <artifactId>maven-shade-plugin</artifactId>
diff --git a/spark-connector-oceanbase/spark-connector-oceanbase-3.2/src/main/scala/com/oceanbase/spark/reader/v2/OBJdbcScanBuilder.scala b/spark-connector-oceanbase/spark-connector-oceanbase-3.2/src/main/scala/com/oceanbase/spark/reader/v2/OBJdbcScanBuilder.scala
@@ -0,0 +1,155 @@
+/*
+ * Copyright 2024 OceanBase.
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package com.oceanbase.spark.reader.v2
+
+import com.oceanbase.spark.config.OceanBaseConfig
+import com.oceanbase.spark.dialect.OceanBaseDialect
+
+import org.apache.spark.internal.Logging
+import org.apache.spark.sql.ExprUtils.compileFilter
+import org.apache.spark.sql.catalyst.InternalRow
+import org.apache.spark.sql.connector.expressions.{NamedReference, SortOrder}
+import org.apache.spark.sql.connector.expressions.aggregate.Aggregation
+import org.apache.spark.sql.connector.read.{Batch, InputPartition, PartitionReader, PartitionReaderFactory, Scan, ScanBuilder, SupportsPushDownAggregates, SupportsPushDownFilters, SupportsPushDownRequiredColumns, SupportsRuntimeFiltering}
+import org.apache.spark.sql.sources.Filter
+import org.apache.spark.sql.types.StructType
+
+case class OBJdbcScanBuilder(
+    schema: StructType,
+    config: OceanBaseConfig,
+    dialect: OceanBaseDialect
+) extends ScanBuilder
+  with SupportsPushDownFilters
+  with SupportsPushDownRequiredColumns
+  with SupportsPushDownAggregates
+  with Logging {
+  private var finalSchema = schema
+  private var pushedFilter = Array.empty[Filter]
+  private var pushDownLimit = 0
+  private var sortOrders: Array[SortOrder] = Array.empty[SortOrder]
+
+  /** TODO: support org.apache.spark.sql.connector.read.SupportsPushDownV2Filters */
+  override def pushFilters(filters: Array[Filter]): Array[Filter] = {
+    val (pushed, unSupported) =
+      filters.partition(f => compileFilter(f, dialect).isDefined)
+    this.pushedFilter = pushed
+    unSupported
+  }
+
+  override def pushedFilters(): Array[Filter] = pushedFilter
+
+  override def pruneColumns(requiredSchema: StructType): Unit = {
+    val requiredCols = requiredSchema.map(_.name)
+    this.finalSchema = StructType(
+      finalSchema.filter(field => requiredCols.contains(field.name))
+    )
+  }
+
+  override def pushAggregation(aggregation: Aggregation): Boolean = {
+    // TODO: support aggregation push down
+    false
+  }
+
+  override def build(): Scan =
+    OBJdbcBatchScan(
+      finalSchema: StructType,
+      config: OceanBaseConfig,
+      pushedFilter: Array[Filter],
+      pushDownLimit: Int,
+      sortOrders: Array[SortOrder],
+      dialect: OceanBaseDialect
+    )
+}
+
+case class OBJdbcBatchScan(
+    schema: StructType,
+    config: OceanBaseConfig,
+    pushedFilter: Array[Filter],
+    pushDownLimit: Int,
+    pushDownTopNSortOrders: Array[SortOrder],
+    dialect: OceanBaseDialect
+) extends Scan
+  with SupportsRuntimeFiltering {
+
+  // TODO: support spark runtime filter feat.
+  private var runtimeFilters: Array[Filter] = Array.empty
+
+  override def readSchema(): StructType = schema
+
+  override def toBatch: Batch =
+    new OBJdbcBatch(
+      schema: StructType,
+      config: OceanBaseConfig,
+      pushedFilter: Array[Filter],
+      pushDownLimit: Int,
+      pushDownTopNSortOrders: Array[SortOrder],
+      dialect: OceanBaseDialect
+    )
+
+  override def filterAttributes(): Array[NamedReference] = Array.empty
+
+  override def filter(filters: Array[Filter]): Unit = {
+    runtimeFilters = filters
+  }
+}
+
+class OBJdbcBatch(
+    schema: StructType,
+    config: OceanBaseConfig,
+    pushedFilter: Array[Filter],
+    pushDownLimit: Int,
+    pushDownTopNSortOrders: Array[SortOrder],
+    dialect: OceanBaseDialect
+) extends Batch {
+  private lazy val inputPartitions: Array[InputPartition] =
+    OBMySQLPartition.columnPartition(config, dialect)
+
+  override def planInputPartitions(): Array[InputPartition] = inputPartitions
+
+  override def createReaderFactory(): PartitionReaderFactory =
+    new OBJdbcReaderFactory(
+      schema: StructType,
+      config: OceanBaseConfig,
+      pushedFilter: Array[Filter],
+      pushDownLimit: Int,
+      pushDownTopNSortOrders: Array[SortOrder],
+      dialect: OceanBaseDialect
+    )
+}
+
+class OBJdbcReaderFactory(
+    schema: StructType,
+    config: OceanBaseConfig,
+    pushedFilter: Array[Filter],
+    pushDownLimit: Int,
+    pushDownTopNSortOrders: Array[SortOrder],
+    dialect: OceanBaseDialect
+) extends PartitionReaderFactory {
+
+  override def createReader(
+      partition: InputPartition
+  ): PartitionReader[InternalRow] =
+    new OBJdbcReader(
+      schema: StructType,
+      config: OceanBaseConfig,
+      partition: InputPartition,
+      pushedFilter: Array[Filter],
+      pushDownLimit: Int,
+      pushDownTopNSortOrders: Array[SortOrder],
+      dialect: OceanBaseDialect
+    )
+}
diff --git a/spark-connector-oceanbase/spark-connector-oceanbase-base/src/main/java/com/oceanbase/spark/config/OceanBaseConfig.java b/spark-connector-oceanbase/spark-connector-oceanbase-base/src/main/java/com/oceanbase/spark/config/OceanBaseConfig.java
@@ -263,6 +263,21 @@ public class OceanBaseConfig extends Config implements Serializable {
                     .booleanConf()
                     .createWithDefault(false);
 
+    public static final ConfigEntry<Boolean> JDBC_ENABLE_PUSH_DOWN_LIMIT =
+            new ConfigBuilder("jdbc.enable-pushdown-limit")
+                    .doc("Whether to enable pushdown of LIMIT clause to OceanBase.")
+                    .version(ConfigConstants.VERSION_1_2_0)
+                    .booleanConf()
+                    .createWithDefault(true);
+
+    public static final ConfigEntry<Boolean> JDBC_ENABLE_PUSH_DOWN_TOP_N =
+            new ConfigBuilder("jdbc.enable-pushdown-top-n")
+                    .doc(
+                            "Whether to enable pushdown of ORDER BY ... LIMIT N (Top-N) queries to OceanBase. This configuration only takes effect when 'jdbc.enable-pushdown-limit' is true.")
+                    .version(ConfigConstants.VERSION_1_2_0)
+                    .booleanConf()
+                    .createWithDefault(true);
+
     public static final ConfigEntry<Boolean> ENABLE_ONLY_AUTO_INC_USE_WHERE_PARTITION =
             new ConfigBuilder("jdbc.enable-only-auto-inc-use-where-partition")
                     .doc(
@@ -424,6 +439,14 @@ public Boolean getEnableRewriteQuerySql() {
         return get(JDBC_ENABLE_REWRITE_QUERY_SQL);
     }
 
+    public Boolean getEnablePushdownLimit() {
+        return get(JDBC_ENABLE_PUSH_DOWN_LIMIT);
+    }
+
+    public Boolean getEnablePushdownTopN() {
+        return get(JDBC_ENABLE_PUSH_DOWN_TOP_N);
+    }
+
     public Boolean getEnableOnlyAutoIncUseWherePartition() {
         return get(ENABLE_ONLY_AUTO_INC_USE_WHERE_PARTITION);
     }
diff --git a/spark-connector-oceanbase/spark-connector-oceanbase-base/src/main/scala/com/oceanbase/spark/dialect/OceanBaseDialect.scala b/spark-connector-oceanbase/spark-connector-oceanbase-base/src/main/scala/com/oceanbase/spark/dialect/OceanBaseDialect.scala
@@ -134,6 +134,11 @@ abstract class OceanBaseDialect extends Logging with Serializable {
     sql
   }
 
+  /** returns the LIMIT clause for the SELECT statement */
+  def getLimitClause(limit: Integer): String = {
+    if (limit > 0) s"LIMIT $limit" else ""
+  }
+
   def getJDBCType(dt: DataType): Option[JdbcType] = None
 
   /** Creates a schema. */
diff --git a/spark-connector-oceanbase/spark-connector-oceanbase-base/src/main/scala/com/oceanbase/spark/dialect/OceanBaseOracleDialect.scala b/spark-connector-oceanbase/spark-connector-oceanbase-base/src/main/scala/com/oceanbase/spark/dialect/OceanBaseOracleDialect.scala
@@ -83,6 +83,15 @@ class OceanBaseOracleDialect extends OceanBaseDialect {
     throw new UnsupportedOperationException("Not currently supported in oracle mode")
   }
 
+  /**
+   * returns the LIMIT clause for the SELECT statement
+   *
+   * Oracle mode not supported
+   */
+  override def getLimitClause(limit: Integer): String = {
+    ""
+  }
+
   override def compileValue(value: Any): Any = value match {
     // The JDBC drivers support date literals in SQL statements written in the
     // format: {d 'yyyy-mm-dd'} and timestamp literals in SQL statements written
diff --git a/spark-connector-oceanbase/spark-connector-oceanbase-base/src/main/scala/com/oceanbase/spark/reader/v2/OBJdbcReader.scala b/spark-connector-oceanbase/spark-connector-oceanbase-base/src/main/scala/com/oceanbase/spark/reader/v2/OBJdbcReader.scala
@@ -26,6 +26,7 @@ import org.apache.spark.sql.ExprUtils.compileFilter
 import org.apache.spark.sql.catalyst.{InternalRow, SQLConfHelper}
 import org.apache.spark.sql.catalyst.expressions.SpecificInternalRow
 import org.apache.spark.sql.catalyst.util.{DateTimeUtils, GenericArrayData}
+import org.apache.spark.sql.connector.expressions.{NullOrdering, SortDirection, SortOrder}
 import org.apache.spark.sql.connector.read.{InputPartition, PartitionReader}
 import org.apache.spark.sql.sources.Filter
 import org.apache.spark.sql.types.{ArrayType, BinaryType, BooleanType, ByteType, CharType, DataType, DateType, Decimal, DecimalType, DoubleType, FloatType, IntegerType, LongType, Metadata, ShortType, StringType, StructType, TimestampType, VarcharType}
@@ -40,6 +41,8 @@ class OBJdbcReader(
     config: OceanBaseConfig,
     partition: InputPartition,
     pushedFilter: Array[Filter],
+    pushDownLimit: Int,
+    pushDownTopNSortOrders: Array[SortOrder],
     dialect: OceanBaseDialect)
   extends PartitionReader[InternalRow]
   with SQLConfHelper
@@ -109,16 +112,69 @@ class OBJdbcReader(
       }
     }
 
+    val myLimitClause: String = {
+      if (part.limitOffsetClause == null || part.limitOffsetClause.isEmpty)
+        dialect.getLimitClause(pushDownLimit)
+      else
+        ""
+    }
+
     var hint = s"/*+ PARALLEL(${config.getJdbcParallelHintDegree}) */"
     if (part.useHiddenPKColumn)
       hint =
         s"/*+ PARALLEL(${config.getJdbcParallelHintDegree}), opt_param('hidden_column_visible', 'true') */"
 
     s"""
        |SELECT $hint $columnStr FROM ${config.getDbTable} ${part.partitionClause}
-       |$whereClause ${part.limitOffsetClause}
+       |$whereClause $getOrderByClause ${part.limitOffsetClause} $myLimitClause
        |""".stripMargin
   }
+
+  /**
+   * Mapping between original SQL requirements and MySQL implementations:
+   * ---------------------------------------------------------------------------------------------------
+   * \| Original Requirement | MySQL Implementation | Resulting Order |
+   * ---------------------------------------------------------------------------------------------------
+   * | ORDER BY id ASC NULLS FIRST  | ORDER BY id ASC (default behavior)  | NULLs first → ASC non-nulls  |
+   * |:-----------------------------|:------------------------------------|:-----------------------------|
+   * | ORDER BY id ASC NULLS LAST   | ORDER BY id IS NULL, id ASC         | ASC non-nulls → NULLs last   |
+   * | ORDER BY id DESC NULLS FIRST | ORDER BY id IS NULL DESC, id DESC   | NULLs first → DESC non-nulls |
+   * | ORDER BY id DESC NULLS LAST  | ORDER BY id DESC (default behavior) | DESC non-nulls → NULLs last  |
+   * ---------------------------------------------------------------------------------------------------
+   *
+   * @return
+   *   MySQL-compatible ORDER BY clause
+   */
+  private def getOrderByClause: String = {
+    if (pushDownTopNSortOrders.nonEmpty) {
+      val mysqlOrderBy = pushDownTopNSortOrders
+        .map {
+          sortOrder =>
+            // Parse sort field name, direction, and null ordering rules (based on Spark's SortOrder)
+            val field = dialect.quoteIdentifier(sortOrder.expression().describe())
+
+            // Generate sorting expressions according to MySQL's null handling characteristics
+            (sortOrder.direction(), sortOrder.nullOrdering()) match {
+              // Scenario: ASC + NULLS_LAST - Add IS NULL helper sort
+              case (SortDirection.ASCENDING, NullOrdering.NULLS_LAST) =>
+                s"$field IS NULL, $field ASC" // Prioritize non-NULL values
+              // Scenario: DESC + NULLS_FIRST - Add IS NULL DESC helper sort
+              case (SortDirection.DESCENDING, NullOrdering.NULLS_FIRST) =>
+                s"$field IS NULL DESC, $field DESC" // Prioritize NULL values
+              // Default sorting behavior for other cases
+              case _ => s"$field ${sortOrder.direction().toString}"
+            }
+        }
+        .mkString(", ")
+
+      // Info output of generated ORDER BY clause
+      logInfo(s"Generated ORDER BY clause: $mysqlOrderBy")
+      s" ORDER BY $mysqlOrderBy"
+    } else {
+      ""
+    }
+  }
+
 }
 
 object OBJdbcReader extends SQLConfHelper {
diff --git a/spark-connector-oceanbase/spark-connector-oceanbase-base/src/main/scala/com/oceanbase/spark/reader/v2/OBJdbcScanBuilder.scala b/spark-connector-oceanbase/spark-connector-oceanbase-base/src/main/scala/com/oceanbase/spark/reader/v2/OBJdbcScanBuilder.scala
diff --git a/spark-connector-oceanbase/spark-connector-oceanbase-base/src/test/scala/com/oceanbase/spark/OBCatalogMySQLITCase.scala b/spark-connector-oceanbase/spark-connector-oceanbase-base/src/test/scala/com/oceanbase/spark/OBCatalogMySQLITCase.scala