supabase-community
diff --git a/‎crates/pg_statement_splitter/src/data.rs
Lines changed: 109 additions & 0 deletions b/‎crates/pg_statement_splitter/src/data.rs
Lines changed: 109 additions & 0 deletions
diff --git a/‎crates/pg_statement_splitter/src/lib.rs
Lines changed: 126 additions & 110 deletions b/‎crates/pg_statement_splitter/src/lib.rs
Lines changed: 126 additions & 110 deletions
diff --git a/‎crates/pg_statement_splitter/src/parser.rs
Lines changed: 2 additions & 12 deletions b/‎crates/pg_statement_splitter/src/parser.rs
Lines changed: 2 additions & 12 deletions
@@ -0,0 +1,109 @@
+use pg_lexer::SyntaxKind;
+use std::{collections::HashMap, sync::LazyLock};
+
+#[derive(Debug)]
+pub enum SyntaxDefinition {
+    RequiredToken(SyntaxKind),
+    OptionalToken(SyntaxKind),
+    AnyTokens,
+    AnyToken,
+    OneOf(Vec<SyntaxKind>),
+}
+
+#[derive(Debug)]
+pub struct StatementDefinition {
+    pub stmt: SyntaxKind,
+    pub tokens: Vec<SyntaxDefinition>,
+}
+
+pub static STATEMENT_BRIDGE_DEFINITIONS: LazyLock<HashMap<SyntaxKind, Vec<StatementDefinition>>> =
+    LazyLock::new(|| {
+        let mut m: Vec<StatementDefinition> = Vec::new();
+
+        m.push(StatementDefinition {
+            stmt: SyntaxKind::SelectStmt,
+            tokens: vec![
+                SyntaxDefinition::RequiredToken(SyntaxKind::Union),
+                SyntaxDefinition::OptionalToken(SyntaxKind::All),
+            ],
+        });
+
+        m.push(StatementDefinition {
+            stmt: SyntaxKind::SelectStmt,
+            tokens: vec![
+                SyntaxDefinition::RequiredToken(SyntaxKind::Intersect),
+                SyntaxDefinition::OptionalToken(SyntaxKind::All),
+            ],
+        });
+
+        m.push(StatementDefinition {
+            stmt: SyntaxKind::SelectStmt,
+            tokens: vec![
+                SyntaxDefinition::RequiredToken(SyntaxKind::Except),
+                SyntaxDefinition::OptionalToken(SyntaxKind::All),
+            ],
+        });
+
+        let mut stmt_starts: HashMap<SyntaxKind, Vec<StatementDefinition>> = HashMap::new();
+
+        for stmt in m {
+            let first_token = stmt.tokens.get(0).unwrap();
+            if let SyntaxDefinition::RequiredToken(kind) = first_token {
+                stmt_starts.entry(*kind).or_insert(Vec::new()).push(stmt);
+            } else {
+                panic!("Expected RequiredToken as first token in bridge definition");
+            }
+        }
+
+        stmt_starts
+    });
+
+pub static STATEMENT_DEFINITIONS: LazyLock<HashMap<SyntaxKind, Vec<StatementDefinition>>> =
+    LazyLock::new(|| {
+        let mut m: Vec<StatementDefinition> = Vec::new();
+
+        m.push(StatementDefinition {
+            stmt: SyntaxKind::CreateTrigStmt,
+            tokens: vec![
+                SyntaxDefinition::RequiredToken(SyntaxKind::Create),
+                SyntaxDefinition::OptionalToken(SyntaxKind::Or),
+                SyntaxDefinition::OptionalToken(SyntaxKind::Replace),
+                SyntaxDefinition::OptionalToken(SyntaxKind::Constraint),
+                SyntaxDefinition::RequiredToken(SyntaxKind::Trigger),
+                SyntaxDefinition::RequiredToken(SyntaxKind::Ident),
+                SyntaxDefinition::AnyTokens,
+                SyntaxDefinition::RequiredToken(SyntaxKind::On),
+                SyntaxDefinition::RequiredToken(SyntaxKind::Ident),
+                SyntaxDefinition::AnyTokens,
+                SyntaxDefinition::RequiredToken(SyntaxKind::Execute),
+                SyntaxDefinition::OneOf(vec![SyntaxKind::Function, SyntaxKind::Procedure]),
+                SyntaxDefinition::RequiredToken(SyntaxKind::Ident),
+            ],
+        });
+
+        m.push(StatementDefinition {
+            stmt: SyntaxKind::SelectStmt,
+            tokens: vec![SyntaxDefinition::RequiredToken(SyntaxKind::Select)],
+        });
+
+        m.push(StatementDefinition {
+            stmt: SyntaxKind::ExecuteStmt,
+            tokens: vec![
+                SyntaxDefinition::RequiredToken(SyntaxKind::Execute),
+                SyntaxDefinition::RequiredToken(SyntaxKind::Ident),
+            ],
+        });
+
+        let mut stmt_starts: HashMap<SyntaxKind, Vec<StatementDefinition>> = HashMap::new();
+
+        for stmt in m {
+            let first_token = stmt.tokens.get(0).unwrap();
+            if let SyntaxDefinition::RequiredToken(kind) = first_token {
+                stmt_starts.entry(*kind).or_insert(Vec::new()).push(stmt);
+            } else {
+                panic!("Expected RequiredToken as first token in statement definition");
+            }
+        }
+
+        stmt_starts
+    });
@@ -9,8 +9,11 @@
 /// We should expand the definition map to include an `Any*`, which must be followed by at least
 /// one required token and allows the parser to search for the end tokens of the statement. This
 /// will hopefully be enough to reduce collisions to zero.
+mod data;
 mod is_at_stmt_start;
 mod parser;
+mod statement_splitter;
+mod statement_tracker;
 mod syntax_error;
 
 use is_at_stmt_start::{is_at_stmt_start, TokenStatement, STATEMENT_START_TOKEN_MAPS};
@@ -19,119 +22,132 @@ use parser::{Parse, Parser};
 
 use pg_lexer::{lex, SyntaxKind};
 
-pub fn split(sql: &str) -> Parse {
-    let mut parser = Parser::new(lex(sql));
-
-    while !parser.eof() {
-        match is_at_stmt_start(&mut parser) {
-            Some(stmt) => {
-                parser.start_stmt();
-
-                // advance over all start tokens of the statement
-                for i in 0..STATEMENT_START_TOKEN_MAPS.len() {
-                    parser.eat_whitespace();
-                    let token = parser.nth(0, false);
-                    if let Some(result) = STATEMENT_START_TOKEN_MAPS[i].get(&token.kind) {
-                        let is_in_results = result
-                            .iter()
-                            .find(|x| match x {
-                                TokenStatement::EoS(y) | TokenStatement::Any(y) => y == &stmt,
-                            })
-                            .is_some();
-                        if i == 0 && !is_in_results {
-                            panic!("Expected statement start");
-                        } else if is_in_results {
-                            parser.expect(token.kind);
-                        } else {
-                            break;
-                        }
-                    }
-                }
-
-                // move until the end of the statement, or until the next statement start
-                let mut is_sub_stmt = 0;
-                let mut is_sub_trx = 0;
-                let mut ignore_next_non_whitespace = false;
-                while !parser.at(SyntaxKind::Ascii59) && !parser.eof() {
-                    match parser.nth(0, false).kind {
-                        SyntaxKind::All => {
-                            // ALL is never a statement start, but needs to be skipped when combining queries
-                            // (e.g. UNION ALL)
-                            parser.advance();
-                        }
-                        SyntaxKind::BeginP => {
-                            // BEGIN, consume until END
-                            is_sub_trx += 1;
-                            parser.advance();
-                        }
-                        SyntaxKind::EndP => {
-                            is_sub_trx -= 1;
-                            parser.advance();
-                        }
-                        // opening brackets "(", consume until closing bracket ")"
-                        SyntaxKind::Ascii40 => {
-                            is_sub_stmt += 1;
-                            parser.advance();
-                        }
-                        SyntaxKind::Ascii41 => {
-                            is_sub_stmt -= 1;
-                            parser.advance();
-                        }
-                        SyntaxKind::As
-                        | SyntaxKind::Union
-                        | SyntaxKind::Intersect
-                        | SyntaxKind::Except => {
-                            // ignore the next non-whitespace token
-                            ignore_next_non_whitespace = true;
-                            parser.advance();
-                        }
-                        _ => {
-                            // if another stmt FIRST is encountered, break
-                            // ignore if parsing sub stmt
-                            if ignore_next_non_whitespace == false
-                                && is_sub_stmt == 0
-                                && is_sub_trx == 0
-                                && is_at_stmt_start(&mut parser).is_some()
-                            {
-                                break;
-                            } else {
-                                if ignore_next_non_whitespace == true && !parser.at_whitespace() {
-                                    ignore_next_non_whitespace = false;
-                                }
-                                parser.advance();
-                            }
-                        }
-                    }
-                }
-
-                parser.expect(SyntaxKind::Ascii59);
-
-                parser.close_stmt();
-            }
-            None => {
-                parser.advance();
-            }
-        }
-    }
-
-    parser.finish()
-}
+// pub fn split(sql: &str) -> Parse {
+//     let mut parser = Parser::new(lex(sql));
+//
+//     while !parser.eof() {
+//         if parser.at_whitespace() {
+//             parser.advance();
+//             continue;
+//         }
+//         // check all current active statements if the token matches
+//         // check if there is a new statement starting at the current token
+//     }
+// }
+//
+// pub fn split(sql: &str) -> Parse {
+//     let mut parser = Parser::new(lex(sql));
+//
+//     while !parser.eof() {
+//         match is_at_stmt_start(&mut parser) {
+//             Some(stmt) => {
+//                 parser.start_stmt();
+//
+//                 // advance over all start tokens of the statement
+//                 for i in 0..STATEMENT_START_TOKEN_MAPS.len() {
+//                     parser.eat_whitespace();
+//                     let token = parser.nth(0, false);
+//                     if let Some(result) = STATEMENT_START_TOKEN_MAPS[i].get(&token.kind) {
+//                         let is_in_results = result
+//                             .iter()
+//                             .find(|x| match x {
+//                                 TokenStatement::EoS(y) | TokenStatement::Any(y) => y == &stmt,
+//                             })
+//                             .is_some();
+//                         if i == 0 && !is_in_results {
+//                             panic!("Expected statement start");
+//                         } else if is_in_results {
+//                             parser.expect(token.kind);
+//                         } else {
+//                             break;
+//                         }
+//                     }
+//                 }
+//
+//                 // move until the end of the statement, or until the next statement start
+//                 let mut is_sub_stmt = 0;
+//                 let mut is_sub_trx = 0;
+//                 let mut ignore_next_non_whitespace = false;
+//                 while !parser.at(SyntaxKind::Ascii59) && !parser.eof() {
+//                     match parser.nth(0, false).kind {
+//                         SyntaxKind::All => {
+//                             // ALL is never a statement start, but needs to be skipped when combining queries
+//                             // (e.g. UNION ALL)
+//                             parser.advance();
+//                         }
+//                         SyntaxKind::BeginP => {
+//                             // BEGIN, consume until END
+//                             is_sub_trx += 1;
+//                             parser.advance();
+//                         }
+//                         SyntaxKind::EndP => {
+//                             is_sub_trx -= 1;
+//                             parser.advance();
+//                         }
+//                         // opening brackets "(", consume until closing bracket ")"
+//                         SyntaxKind::Ascii40 => {
+//                             is_sub_stmt += 1;
+//                             parser.advance();
+//                         }
+//                         SyntaxKind::Ascii41 => {
+//                             is_sub_stmt -= 1;
+//                             parser.advance();
+//                         }
+//                         SyntaxKind::As
+//                         | SyntaxKind::Union
+//                         | SyntaxKind::Intersect
+//                         | SyntaxKind::Except => {
+//                             // ignore the next non-whitespace token
+//                             ignore_next_non_whitespace = true;
+//                             parser.advance();
+//                         }
+//                         _ => {
+//                             // if another stmt FIRST is encountered, break
+//                             // ignore if parsing sub stmt
+//                             if ignore_next_non_whitespace == false
+//                                 && is_sub_stmt == 0
+//                                 && is_sub_trx == 0
+//                                 && is_at_stmt_start(&mut parser).is_some()
+//                             {
+//                                 break;
+//                             } else {
+//                                 if ignore_next_non_whitespace == true && !parser.at_whitespace() {
+//                                     ignore_next_non_whitespace = false;
+//                                 }
+//                                 parser.advance();
+//                             }
+//                         }
+//                     }
+//                 }
+//
+//                 parser.expect(SyntaxKind::Ascii59);
+//
+//                 parser.close_stmt();
+//             }
+//             None => {
+//                 parser.advance();
+//             }
+//         }
+//     }
+//
+//     parser.finish()
+// }
 
 #[cfg(test)]
 mod tests {
     use super::*;
 
-    #[test]
-    fn test_splitter() {
-        let input = "select 1 from contact;\nselect 1;\nalter table test drop column id;";
-
-        let res = split(input);
-        assert_eq!(res.ranges.len(), 3);
-        assert_eq!("select 1 from contact;", input[res.ranges[0]].to_string());
-        assert_eq!("select 1;", input[res.ranges[1]].to_string());
-        assert_eq!(
-            "alter table test drop column id;",
-            input[res.ranges[2]].to_string()
-        );
-    }
+    // #[test]
+    // fn test_splitter() {
+    //     let input = "select 1 from contact;\nselect 1;\nalter table test drop column id;";
+    //
+    //     let res = split(input);
+    //     assert_eq!(res.ranges.len(), 3);
+    //     assert_eq!("select 1 from contact;", input[res.ranges[0]].to_string());
+    //     assert_eq!("select 1;", input[res.ranges[1]].to_string());
+    //     assert_eq!(
+    //         "alter table test drop column id;",
+    //         input[res.ranges[2]].to_string()
+    //     );
+    // }
 }
@@ -67,17 +67,6 @@ impl Parser {
         }
     }
 
-    pub fn start_stmt(&mut self) {
-        assert!(self.current_stmt_start.is_none());
-        self.current_stmt_start = Some(self.pos);
-    }
-
-    pub fn close_stmt(&mut self) {
-        assert!(self.current_stmt_start.is_some());
-        self.ranges
-            .push((self.current_stmt_start.take().unwrap(), self.pos));
-    }
-
     /// collects an SyntaxError with an `error` message at `pos`
     pub fn error_at_pos(&mut self, error: String, pos: usize) {
         self.errors.push(SyntaxError::new_at_offset(
@@ -93,7 +82,8 @@ impl Parser {
     /// applies token and advances
     pub fn advance(&mut self) {
         assert!(!self.eof());
-        if self.nth(0, false).kind == SyntaxKind::Whitespace {
+        let token = self.nth(0, false);
+        if token.kind == SyntaxKind::Whitespace {
             if self.whitespace_token_buffer.is_none() {
                 self.whitespace_token_buffer = Some(self.pos);
             }