DH-5725/adding the log prob evaluator

MohammadrezaPourreza · MohammadrezaPourreza · commit cdad61ba5618 · 2024-04-17T08:30:35.000-04:00
diff --git a/dataherald/api/types/requests.py b/dataherald/api/types/requests.py
@@ -14,6 +14,7 @@ class SQLGenerationRequest(BaseModel):
     low_latency_mode: bool = False
     llm_config: LLMConfig | None
     evaluate: bool = False
+    evaluation_quantile: int = 25
     sql: str | None
     metadata: dict | None
 
diff --git a/dataherald/config.py b/dataherald/config.py
@@ -28,7 +28,7 @@ class Settings(BaseSettings):
     )
 
     eval_impl: str = os.environ.get(
-        "EVALUATOR", "dataherald.eval.simple_evaluator.SimpleEvaluator"
+        "EVALUATOR", "dataherald.eval.logprob_evaluator.LogProbEvaluator"
     )
     db_impl: str = os.environ.get("DB", "dataherald.db.mongo.MongoDB")
 
diff --git a/dataherald/eval/logprob_evaluator.py b/dataherald/eval/logprob_evaluator.py
@@ -0,0 +1,74 @@
+import logging
+
+from overrides import override
+
+from dataherald.config import System
+from dataherald.eval import Evaluation, Evaluator
+from dataherald.sql_database.models.types import DatabaseConnection
+from dataherald.types import Prompt, SQLGeneration
+
+logger = logging.getLogger(__name__)
+MAX_QUANTILE = 100
+
+
+class LogProbEvaluator(Evaluator):
+    def __init__(self, system: System):
+        super().__init__(system)
+        self.system = system
+
+    def extract_query_probs(self, tokens, probs):
+        """Extract the probabilities for each token in the query."""
+        query_probs = []
+        query_found = False
+        for token, prob in zip(tokens, probs, strict=False):
+            if "```" in token or "`" in token:
+                query_found = True
+            if query_found:
+                query_probs.append((token, prob))
+        return query_probs
+
+    @override
+    def evaluate(
+        self,
+        user_prompt: Prompt,
+        sql_generation: SQLGeneration,
+        database_connection: DatabaseConnection,  # noqa: ARG002
+    ) -> Evaluation:
+        logger.info(
+            f"(LogProb evaluator) Generating score for the question/sql pair: {str(user_prompt.text)}/ {str(sql_generation.sql)}"
+        )
+        if sql_generation.status == "INVALID":
+            logger.info(
+                f"(LogProb evaluator) SQL query: {sql_generation.sql} is not valid. Returning score 0"
+            )
+            return Evaluation(
+                question_id=user_prompt.id, answer_id=sql_generation.id, score=0.0
+            )
+        for i in range(len(sql_generation.tokens) - 1, -1, -1):
+            query_probs = self.extract_query_probs(
+                sql_generation.tokens[i], sql_generation.probs[i]
+            )
+            if query_probs:
+                break
+        if not query_probs:
+            return Evaluation(
+                question_id=user_prompt.id, answer_id=sql_generation.id, score=0.0
+            )
+        probabilities = sorted([prob for token, prob in query_probs])
+        tokens = [token for token, prob in query_probs]
+        logger.info(
+            f"(LogProb evaluator) Found {len(query_probs)} query tokens {tokens} in {i} step with probabilities."
+        )
+        total_probs = len(probabilities)
+        if sql_generation.evaluation_quantile > MAX_QUANTILE:
+            raise ValueError(
+                f"Evaluation quantile should be between 0 and 100. Got {sql_generation.evaluation_quantile}"
+            )
+        index = int(
+            round(((sql_generation.evaluation_quantile / 100) * (total_probs - 1)), 0)
+        )
+        return Evaluation(
+            question_id=user_prompt.id,
+            answer_id=sql_generation.id,
+            score=probabilities[index],
+        )
diff --git a/dataherald/model/chat_model.py b/dataherald/model/chat_model.py
@@ -27,6 +27,8 @@ def get_model(
                 model_name=model_name,
                 openai_api_key=api_key,
                 openai_api_base=api_base,
+                logprobs=True,
+                top_logprobs=20,
                 **kwargs
             )
         if model_family == "anthropic":
diff --git a/dataherald/services/sql_generations.py b/dataherald/services/sql_generations.py
@@ -61,6 +61,8 @@ def update_the_initial_sql_generation(
         initial_sql_generation.status = sql_generation.status
         initial_sql_generation.error = sql_generation.error
         initial_sql_generation.intermediate_steps = sql_generation.intermediate_steps
+        initial_sql_generation.tokens = sql_generation.tokens
+        initial_sql_generation.probs = sql_generation.probs
         return self.sql_generation_repository.update(initial_sql_generation)
 
     def create(
@@ -173,6 +175,9 @@ def create(
                 database_connection=db_connection,
             )
             initial_sql_generation.evaluate = sql_generation_request.evaluate
+            initial_sql_generation.evaluation_quantile = (
+                sql_generation_request.evaluation_quantile
+            )
             initial_sql_generation.confidence_score = confidence_score
         return self.update_the_initial_sql_generation(
             initial_sql_generation, sql_generation
diff --git a/dataherald/sql_generator/dataherald_finetuning_agent.py b/dataherald/sql_generator/dataherald_finetuning_agent.py
@@ -42,6 +42,9 @@
     DatabaseConnection,
 )
 from dataherald.sql_generator import EngineTimeOutORItemLimitError, SQLGenerator
+from dataherald.sql_generator.log_probs_callback_handler import (
+    OpenAILogProbsCallbackHandler,
+)
 from dataherald.types import FineTuningStatus, Prompt, SQLGeneration
 from dataherald.utils.agent_prompts import (
     ERROR_PARSING_MESSAGE,
@@ -533,6 +536,7 @@ def generate_response(
             Response: The response to the user question.
         """
         context_store = self.system.instance(ContextStore)
+        log_prob_callback = OpenAILogProbsCallbackHandler()
         storage = self.system.instance(DB)
         response = SQLGeneration(
             prompt_id=user_prompt.id,
@@ -543,6 +547,7 @@ def generate_response(
         self.llm = self.model.get_model(
             database_connection=database_connection,
             temperature=0,
+            callbacks=BaseCallbackManager([log_prob_callback]),
             model_name=self.llm_config.llm_name,
             api_base=self.llm_config.api_base,
         )
@@ -608,6 +613,8 @@ def generate_response(
                     completed_at=datetime.datetime.now(),
                     sql="",
                     status="INVALID",
+                    tokens=log_prob_callback.tokens,
+                    probs=log_prob_callback.probs,
                     error=str(e),
                 )
         sql_query = ""
@@ -621,6 +628,8 @@ def generate_response(
         response.sql = replace_unprocessable_characters(sql_query)
         response.tokens_used = cb.total_tokens
         response.completed_at = datetime.datetime.now()
+        response.tokens = log_prob_callback.tokens
+        response.probs = log_prob_callback.probs
         response.intermediate_steps = self.construct_intermediate_steps(
             result["intermediate_steps"], FINETUNING_AGENT_SUFFIX
         )
diff --git a/dataherald/sql_generator/dataherald_sqlagent.py b/dataherald/sql_generator/dataherald_sqlagent.py
@@ -43,6 +43,9 @@
     DatabaseConnection,
 )
 from dataherald.sql_generator import EngineTimeOutORItemLimitError, SQLGenerator
+from dataherald.sql_generator.log_probs_callback_handler import (
+    OpenAILogProbsCallbackHandler,
+)
 from dataherald.types import Prompt, SQLGeneration
 from dataherald.utils.agent_prompts import (
     AGENT_PREFIX,
@@ -679,6 +682,7 @@ def generate_response(
         metadata: dict = None,
     ) -> SQLGeneration:
         context_store = self.system.instance(ContextStore)
+        log_prob_callback = OpenAILogProbsCallbackHandler()
         storage = self.system.instance(DB)
         response = SQLGeneration(
             prompt_id=user_prompt.id,
@@ -688,6 +692,7 @@ def generate_response(
         self.llm = self.model.get_model(
             database_connection=database_connection,
             temperature=0,
+            callbacks=BaseCallbackManager([log_prob_callback]),
             model_name=self.llm_config.llm_name,
             api_base=self.llm_config.api_base,
         )
@@ -748,6 +753,8 @@ def generate_response(
                     completed_at=datetime.datetime.now(),
                     sql="",
                     status="INVALID",
+                    tokens=log_prob_callback.tokens,
+                    probs=log_prob_callback.probs,
                     error=str(e),
                 )
         sql_query = ""
@@ -761,6 +768,8 @@ def generate_response(
         response.sql = replace_unprocessable_characters(sql_query)
         response.tokens_used = cb.total_tokens
         response.completed_at = datetime.datetime.now()
+        response.tokens = log_prob_callback.tokens
+        response.probs = log_prob_callback.probs
         if number_of_samples > 0:
             suffix = SUFFIX_WITH_FEW_SHOT_SAMPLES
         else:
diff --git a/dataherald/sql_generator/log_probs_callback_handler.py b/dataherald/sql_generator/log_probs_callback_handler.py
@@ -0,0 +1,60 @@
+import math
+from typing import Any, Dict
+
+from langchain.schema import AgentFinish
+from langchain_core.callbacks import BaseCallbackHandler
+from langchain_core.outputs import LLMResult
+
+
+class OpenAILogProbsCallbackHandler(BaseCallbackHandler):
+    """Callback Handler that tracks OpenAI logprobs."""
+
+    tokens: list[list[str]]
+    probs: list[list[float]]
+
+    def __init__(self) -> None:
+        super().__init__()
+        self.tokens = []
+        self.probs = []
+
+    def on_llm_end(self, response: LLMResult, **kwargs: Any) -> None:  # noqa: ARG002
+        for generation in response.generations:
+            model_ouptut = generation[0]
+            temp_tokens = []
+            temp_probs = []
+            logprobs = model_ouptut.generation_info["logprobs"]
+            if logprobs is None:
+                continue
+            for token in logprobs["content"]:
+                top_token = token.get("token")
+                top_token_prob = round(math.exp(token.get("logprob")), 3)
+                for index, candidate in enumerate(token.get("top_logprobs")):
+                    if index == 0:
+                        continue
+                    candidate_token = candidate.get("token")
+                    candidate_prob = round(math.exp(candidate.get("logprob")), 3)
+                    if (
+                        top_token.strip().lower() in candidate_token.strip().lower()
+                        or candidate_token.strip().lower() in top_token.strip().lower()
+                    ):
+                        top_token_prob += candidate_prob
+                temp_tokens.append(top_token)
+                temp_probs.append(top_token_prob)
+            self.tokens.append(temp_tokens)
+            self.probs.append(temp_probs)
+
+    def on_chain_end(
+        self, outputs: Dict[str, Any], **kwargs: Any
+    ) -> Any:  # noqa: ARG002
+        """Run when chain ends running."""
+        pass
+
+    def on_tool_end(self, output: str, **kwargs: Any) -> Any:  # noqa: ARG002
+        """Run when tool ends running."""
+        pass
+
+    def on_agent_finish(
+        self, finish: AgentFinish, **kwargs: Any
+    ) -> Any:  # noqa: ARG002
+        """Run on agent end."""
+        pass
diff --git a/dataherald/types.py b/dataherald/types.py
@@ -191,6 +191,7 @@ class SQLGeneration(BaseModel):
     low_latency_mode: bool = False
     llm_config: LLMConfig | None
     evaluate: bool = False
+    evaluation_quantile: int = 0
     intermediate_steps: list[IntermediateStep] | None
     sql: str | None
     status: str = "INVALID"
@@ -199,6 +200,8 @@ class SQLGeneration(BaseModel):
     confidence_score: float | None
     error: str | None
     created_at: datetime = Field(default_factory=datetime.now)
+    tokens: list[str] | None
+    probs: list[float] | None
     metadata: dict | None
 
 

Original file line number	Diff line number	Diff line change
`@@ -28,7 +28,7 @@ class Settings(BaseSettings):`
`28`	`28`	`)`
`29`	`29`
`30`	`30`	`eval_impl: str = os.environ.get(`
`31`		`- "EVALUATOR", "dataherald.eval.simple_evaluator.SimpleEvaluator"`
	`31`	`+ "EVALUATOR", "dataherald.eval.logprob_evaluator.LogProbEvaluator"`
`32`	`32`	`)`
`33`	`33`	`db_impl: str = os.environ.get("DB", "dataherald.db.mongo.MongoDB")`
`34`	`34`
Original file line number	Diff line number	Diff line change
`@@ -27,6 +27,8 @@ def get_model(`
`27`	`27`	`model_name=model_name,`
`28`	`28`	`openai_api_key=api_key,`
`29`	`29`	`openai_api_base=api_base,`
	`30`	`+ logprobs=True,`
	`31`	`+ top_logprobs=20,`
`30`	`32`	`**kwargs`
`31`	`33`	`)`
`32`	`34`	`if model_family == "anthropic":`