ScottLogic
diff --git a/‎backend/library/AstraZeneca-Sustainability-Report-2023.pdf‎ renamed to ‎backend/tests/Ragas/utils/AstraZeneca-Sustainability-Report-2023.pdf‎ b/‎backend/library/AstraZeneca-Sustainability-Report-2023.pdf‎ renamed to ‎backend/tests/Ragas/utils/AstraZeneca-Sustainability-Report-2023.pdf‎
diff --git a/‎backend/tests/Ragas/utils/modules/ragas_evaluation.py‎
Lines changed: 13 additions & 9 deletions b/‎backend/tests/Ragas/utils/modules/ragas_evaluation.py‎
Lines changed: 13 additions & 9 deletions
@@ -10,9 +10,8 @@
 import pandas as pd
 from ragas import evaluate, EvaluationDataset, SingleTurnSample
 from ragas.llms import LangchainLLMWrapper
-from langchain_openai import ChatOpenAI
-from ragas.metrics import FactualCorrectness, SemanticSimilarity
-from ragas.metrics._nv_metrics import AnswerAccuracy
+from langchain_openai.chat_models import ChatOpenAI
+from ragas.metrics import answer_relevancy, ContextRelevance, SemanticSimilarity, context_precision
 from ragas.embeddings import LangchainEmbeddingsWrapper
 from langchain_openai import OpenAIEmbeddings
 from dotenv import load_dotenv
@@ -151,11 +150,15 @@ async def evaluate_with_ragas(
         dataset, samples, processed_data = create_ragas_dataset(data)
 
         # Define metrics to use for evaluation
-        print("Configuring default RAGAS metrics: factual_correctness, semantic_similarity, answer_accuracy")
+        print(
+            "Configuring default RAGAS metrics: semantic_similarity, "
+            "answer_relevancy, context_relevance, context_precision"
+        )
         metrics = [
-            FactualCorrectness(llm=llm),
-            SemanticSimilarity(embeddings=embeddings_wrapper),
-            AnswerAccuracy(llm=llm),
+            SemanticSimilarity(),
+            answer_relevancy,
+            context_precision,
+            ContextRelevance(llm=llm),
         ]
 
         # Run the evaluation
@@ -166,9 +169,10 @@ async def evaluate_with_ragas(
             print("Processing evaluation results including llm_usage if present...")
             # Define expected metrics for alignment and output naming
             expected_metrics = [
-                ("factual_correctness(mode=f1)", "factual_correctness"),
+                ("nv_context_relevance", "recontext_relevance"),
+                ("context_precision", "context_precision"),
+                ("answer_relevancy", "answer_relevancy"),
                 ("semantic_similarity", "semantic_similarity"),
-                ("nv_accuracy", "answer_accuracy"),
             ]
 
             df = results.to_pandas()