Merge remote-tracking branch 'origin/main' into 98-shift-to-litellm

gotsysdba · gotsysdba · commit c0661c224f9a · 2025-09-02T11:58:16.000+01:00
diff --git a/.gitignore b/.gitignore
@@ -67,3 +67,4 @@ spring_ai/drop.sql
 src/client/spring_ai/target/classes/*
 api_server_key
 .env
+
diff --git a/src/client/content/config/tabs/settings.py b/src/client/content/config/tabs/settings.py
@@ -159,7 +159,9 @@ def spring_ai_conf_check(ll_model: dict, embed_model: dict) -> str:
 
     ll_provider = ll_model.get("provider", "")
     embed_provider = embed_model.get("provider", "")
-
+    logger.info(f"llm chat:{ll_provider} - embeddings:{embed_provider}")
+    if all("openai_compatible" in p for p in (ll_provider, embed_provider)):
+        return "openai_compatible"
     if all("openai" in p for p in (ll_provider, embed_provider)):
         return "openai"
     if all("ollama" in p for p in (ll_provider, embed_provider)):
@@ -342,6 +344,8 @@ def display_settings():
         embed_config = {}
     spring_ai_conf = spring_ai_conf_check(ll_config, embed_config)
 
+    logger.info(f"config found:{spring_ai_conf}")
+    
     if spring_ai_conf == "hybrid":
         st.markdown(f"""
             The current configuration combination of embedding and language models
@@ -352,21 +356,23 @@ def display_settings():
     else:
         col_left, col_centre, _ = st.columns([3, 4, 3])
         with col_left:
-            st.download_button(
-                label="Download SpringAI",
-                data=spring_ai_zip(spring_ai_conf, ll_config, embed_config),  # Generate zip on the fly
-                file_name="spring_ai.zip",  # Zip file name
-                mime="application/zip",  # Mime type for zip file
-                disabled=spring_ai_conf == "hybrid",
-            )
-        with col_centre:
             st.download_button(
                 label="Download LangchainMCP",
                 data=langchain_mcp_zip(settings),  # Generate zip on the fly
                 file_name="langchain_mcp.zip",  # Zip file name
                 mime="application/zip",  # Mime type for zip file
                 disabled=spring_ai_conf == "hybrid",
             )
+        with col_centre:
+            if (spring_ai_conf != "openai_compatible"):
+                st.download_button(
+                    label="Download SpringAI",
+                    data=spring_ai_zip(spring_ai_conf, ll_config, embed_config),  # Generate zip on the fly
+                    file_name="spring_ai.zip",  # Zip file name
+                    mime="application/zip",  # Mime type for zip file
+                    disabled=spring_ai_conf == "hybrid",
+                )
+            
 
 
 if __name__ == "__main__":
diff --git a/src/client/mcp/rag/optimizer_utils/config.py b/src/client/mcp/rag/optimizer_utils/config.py
@@ -39,8 +39,11 @@ def get_llm(data):
         llm = OllamaLLM(model=model, base_url=url)
         logger.info("Ollama LLM created")
     elif provider == "openai":
-        llm = llm = ChatOpenAI(model=model, api_key=api_key)
+        llm = ChatOpenAI(model=model, api_key=api_key)
         logger.info("OpenAI LLM created")
+    elif provider =="openai_compatible":
+        llm = ChatOpenAI(model=model, api_key=api_key,base_url=url)
+        logger.info("OpenAI compatible LLM created")
     return llm
 
 
@@ -60,9 +63,13 @@ def get_embeddings(data):
     if provider == "ollama":
         embeddings = OllamaEmbeddings(model=model, base_url=url)
         logger.info("Ollama Embeddings connection successful")
-    elif (provider == "openai") or (provider == "openai_compatible"):
+    elif (provider == "openai"):
         embeddings = OpenAIEmbeddings(model=model, api_key=api_key)
         logger.info("OpenAI embeddings connection successful")
+    elif (provider == "openai_compatible"):
+        embeddings = OpenAIEmbeddings(model=model, api_key=api_key,base_url=url,check_embedding_ctx_length=False)
+        logger.info("OpenAI compatible embeddings connection successful")
+
     return embeddings
 
 
@@ -80,7 +87,7 @@ def get_vectorstore(data, embeddings):
     distance_metric=data["client_settings"]["vector_search"]["distance_metric"]
     index_type=data["client_settings"]["vector_search"]["index_type"]
 
-    db_table=(table_alias+"_"+model+"_"+chunk_size+"_"+chunk_overlap+"_"+distance_metric+"_"+index_type).upper().replace("-", "_")
+    db_table=(table_alias+"_"+model+"_"+chunk_size+"_"+chunk_overlap+"_"+distance_metric+"_"+index_type).upper().replace("-", "_").replace("/", "_")
     logger.info(f"db_table:{db_table}")
 
 
diff --git a/src/client/mcp/rag/optimizer_utils/rag.py b/src/client/mcp/rag/optimizer_utils/rag.py
@@ -54,7 +54,7 @@ def rag_tool_base(question: str) -> str:
 
             logger.info("rag_prompt:")
             logger.info(rag_prompt)
-            template = """DOCUMENTS: {context} \n"""+rag_prompt+"""\nQuestion: {question} """
+            template = rag_prompt+"""\n# DOCUMENTS :\n {context} \n"""+"""\n # Question: {question} """
             logger.info(template)
             logger.info(f"user_question: {user_question}")
             prompt = PromptTemplate.from_template(template)
diff --git a/src/server/bootstrap/models.py b/src/server/bootstrap/models.py
@@ -6,7 +6,7 @@
 added via the APIs
 """
 # spell-checker:ignore configfile genai ollama pplx docos mxbai nomic thenlper
-# spell-checker:ignore huggingface
+# spell-checker:ignore huggingface vllm
 
 import os
 
@@ -97,6 +97,18 @@ def update_env_var(model: Model, provider: str, model_key: str, env_var: str):
             "max_completion_tokens": 2048,
             "frequency_penalty": 0.0,
         },
+        {
+            "id": "Llama-3.2-1B-Instruct",
+            "enabled": os.getenv("ON_PREM_VLLM_URL") is not None,
+            "type": "ll",
+            "provider": "meta-llama",
+            "api_key": "",
+            "url": os.environ.get("ON_PREM_VLLM_URL", default="http://gpu:8000/v1"),
+            "context_length": 131072,
+            "temperature": 1.0,
+            "max_completion_tokens": 2048,
+            "frequency_penalty": 0.0,
+        },
         {
             # This is intentionally last to line up with docos
             "id": "llama3.1",
@@ -138,7 +150,7 @@ def update_env_var(model: Model, provider: str, model_key: str, env_var: str):
             "max_chunk_size": 512,
         },
         {
-            "id": "text-embedding-nomic-embed-text-v1.5",
+            "id": "nomic-ai/nomic-embed-text-v1",
             "enabled": False,
             "type": "embed",
             "provider": "huggingface",
@@ -212,6 +224,7 @@ def values_differ(a, b):
         update_env_var(model, "oci", "api_base", "OCI_GENAI_SERVICE_ENDPOINT")
         update_env_var(model, "ollama", "api_base", "ON_PREM_OLLAMA_URL")
         update_env_var(model, "huggingface", "api_base", "ON_PREM_HF_URL")
+        update_env_var(model, "meta-llama", "api_base", "ON_PREM_VLLM_URL")
 
     # Check URL accessible for enabled models and disable if not:
     url_access_cache = {}