FEAT(mcp): add TTS MCP Support (opea-project#1693)

Spycsh · pre-commit-ci[bot] · web-flow · commit 7212dd281d34 · 2025-05-19T14:46:29.000+08:00
* add TTS MCP Support * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * pass ut by bypassing the volume mapping --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
diff --git a/comps/third_parties/gpt-sovits/deployment/docker_compose/compose.yaml b/comps/third_parties/gpt-sovits/deployment/docker_compose/compose.yaml
@@ -13,8 +13,8 @@ services:
       http_proxy: ${http_proxy}
       https_proxy: ${https_proxy}
       llm_download: ${llm_download:-True}
-    volumes:
-      - ./pretrained_models/:/home/user/GPT-SoVITS/GPT_SoVITS/pretrained_models/
+    # volumes:
+    #   - ./pretrained_models/:/home/user/GPT-SoVITS/GPT_SoVITS/pretrained_models/
     restart: unless-stopped
     healthcheck:
       test: ["CMD", "curl", "-f", "http://localhost:9880/health"]
diff --git a/comps/tts/deployment/docker_compose/compose.yaml b/comps/tts/deployment/docker_compose/compose.yaml
@@ -15,11 +15,13 @@ services:
     environment:
       TTS_ENDPOINT: ${TTS_ENDPOINT}
       TTS_COMPONENT_NAME: ${TTS_COMPONENT_NAME:-OPEA_SPEECHT5_TTS}
+      ENABLE_MCP: ${ENABLE_MCP:-False}
   tts-speecht5:
     extends: tts
     container_name: tts-speecht5-service
     environment:
       TTS_COMPONENT_NAME: ${TTS_COMPONENT_NAME:-OPEA_SPEECHT5_TTS}
+      ENABLE_MCP: ${ENABLE_MCP:-False}
     depends_on:
       speecht5-service:
         condition: service_healthy
@@ -28,6 +30,7 @@ services:
     container_name: tts-speecht5-gaudi-service
     environment:
       TTS_COMPONENT_NAME: ${TTS_COMPONENT_NAME:-OPEA_SPEECHT5_TTS}
+      ENABLE_MCP: ${ENABLE_MCP:-False}
     depends_on:
       speecht5-gaudi-service:
         condition: service_healthy
@@ -36,6 +39,7 @@ services:
     container_name: tts-gpt-sovits-service
     environment:
       TTS_COMPONENT_NAME: ${TTS_COMPONENT_NAME:-OPEA_GPTSOVITS_TTS}
+      ENABLE_MCP: ${ENABLE_MCP:-False}
     depends_on:
       gpt-sovits-service:
         condition: service_healthy
diff --git a/comps/tts/src/opea_tts_microservice.py b/comps/tts/src/opea_tts_microservice.py
@@ -1,9 +1,11 @@
 # Copyright (C) 2024 Intel Corporation
 # SPDX-License-Identifier: Apache-2.0
 
+import base64
 import os
 import time
 
+import requests
 from fastapi.responses import StreamingResponse
 from integrations.gptsovits import OpeaGptsovitsTts
 from integrations.speecht5 import OpeaSpeecht5Tts
@@ -17,12 +19,15 @@
     register_statistics,
     statistics_dict,
 )
+from comps.cores.mega.constants import MCPFuncType
 from comps.cores.proto.api_protocol import AudioSpeechRequest
 
 logger = CustomLogger("opea_tts_microservice")
 logflag = os.getenv("LOGFLAG", False)
 
 tts_component_name = os.getenv("TTS_COMPONENT_NAME", "OPEA_SPEECHT5_TTS")
+enable_mcp = os.getenv("ENABLE_MCP", "").strip().lower() in {"true", "1", "yes"}
+
 # Initialize OpeaComponentLoader
 loader = OpeaComponentLoader(tts_component_name, description=f"OPEA TTS Component: {tts_component_name}")
 
@@ -41,6 +46,9 @@ async def stream_forwarder(response):
     port=9088,
     input_datatype=AudioSpeechRequest,
     output_datatype=StreamingResponse,
+    enable_mcp=enable_mcp,
+    mcp_func_type=MCPFuncType.TOOL,
+    description="Convert text to audio.",
 )
 @register_statistics(names=["opea_service@tts"])
 async def text_to_speech(request: AudioSpeechRequest) -> StreamingResponse:
@@ -51,11 +59,17 @@ async def text_to_speech(request: AudioSpeechRequest) -> StreamingResponse:
 
     try:
         # Use the loader to invoke the component
-        tts_response = await loader.invoke(request)
+        tts_response: requests.models.Response = await loader.invoke(request)
         if logflag:
             logger.info(tts_response)
         statistics_dict["opea_service@tts"].append_latency(time.time() - start, None)
-        return StreamingResponse(stream_forwarder(tts_response))
+        if enable_mcp:
+            # return the base64 string
+            audio_base64 = base64.b64encode(tts_response.content).decode("utf-8")
+
+            return {"audio_str": audio_base64}
+        else:
+            return StreamingResponse(stream_forwarder(tts_response))
 
     except Exception as e:
         logger.error(f"Error during tts invocation: {e}")
diff --git a/comps/tts/src/requirements.txt b/comps/tts/src/requirements.txt
@@ -1,6 +1,7 @@
 aiohttp
 docarray[full]
 fastapi
+mcp
 opentelemetry-api
 opentelemetry-exporter-otlp
 opentelemetry-sdk
diff --git a/tests/tts/test_tts_speecht5_mcp.sh b/tests/tts/test_tts_speecht5_mcp.sh
@@ -0,0 +1,72 @@
+#!/bin/bash
+# Copyright (C) 2025 Intel Corporation
+# SPDX-License-Identifier: Apache-2.0
+
+set -x
+
+WORKPATH=$(dirname "$PWD")
+ip_address=$(hostname -I | awk '{print $1}')
+export TAG=comps
+export SPEECHT5_PORT=11806
+export TTS_PORT=11807
+export ENABLE_MCP=True
+
+
+function build_docker_images() {
+    cd $WORKPATH
+    echo $(pwd)
+    docker build --no-cache --build-arg https_proxy=$https_proxy --build-arg http_proxy=$http_proxy -t opea/speecht5:$TAG -f comps/third_parties/speecht5/src/Dockerfile .
+    if [ $? -ne 0 ]; then
+        echo "opea/speecht5 built fail"
+        exit 1
+    else
+        echo "opea/speecht5 built successful"
+    fi
+    docker build --no-cache --build-arg https_proxy=$https_proxy --build-arg http_proxy=$http_proxy -t opea/tts:$TAG -f comps/tts/src/Dockerfile .
+    if [ $? -ne 0 ]; then
+        echo "opea/tts built fail"
+        exit 1
+    else
+        echo "opea/tts built successful"
+    fi
+}
+
+function start_service() {
+    unset http_proxy
+    export TTS_ENDPOINT=http://$ip_address:$SPEECHT5_PORT
+    export TTS_COMPONENT_NAME=OPEA_SPEECHT5_TTS
+
+    docker compose -f comps/tts/deployment/docker_compose/compose.yaml up speecht5-service tts-speecht5 -d
+    sleep 15
+}
+
+function validate_microservice() {
+    pip install mcp
+    python3 ${WORKPATH}/tests/utils/validate_svc_with_mcp.py $ip_address $TTS_PORT "tts"
+    if [ $? -ne 0 ]; then
+        docker logs speecht5-service
+        docker logs tts-speecht5-service
+        exit 1
+    fi
+
+}
+
+function stop_docker() {
+    docker ps -a --filter "name=speecht5-service" --filter "name=tts-speecht5-service" --format "{{.Names}}" | xargs -r docker stop
+}
+
+function main() {
+
+    stop_docker
+
+    build_docker_images
+    start_service
+
+    validate_microservice
+
+    stop_docker
+    echo y | docker system prune
+
+}
+
+main
diff --git a/tests/utils/validate_svc_with_mcp.py b/tests/utils/validate_svc_with_mcp.py
@@ -38,6 +38,28 @@ async def validate_svc(ip_address, service_port, service_type):
                 else:
                     print(f"Result wrong. Received was {result_content}")
                     exit(1)
+            elif service_type == "tts":
+                input_dict = {"request": {"input": "Hi there, welcome to OPEA."}}
+                tool_result = await session.call_tool(
+                    "text_to_speech",
+                    input_dict,
+                )
+                result_content = tool_result.content
+                # Check result
+                audio_str = json.loads(result_content[0].text).get("audio_str", "")
+                if audio_str.startswith("Ukl"):  # "Ukl" indicates likely WAV header
+                    audio_data = base64.b64decode(audio_str)
+                    with open("output.wav", "wb") as f:
+                        f.write(audio_data)
+                    with open("output.wav", "rb") as f:
+                        header = f.read(4)
+                    if header == b"RIFF":
+                        print("Result correct.")
+                    else:
+                        print(f"Invalid WAV file: starts with {header}")
+                else:
+                    print(f"Result wrong. Received was {result_content}")
+                    exit(1)
             else:
                 print(f"Unknown service type: {service_type}")
                 exit(1)