update build-image at nvidia

Ceng23333 · Ceng23333 · commit ab1ceff91fa6 · 2026-03-10T13:13:59.000+08:00
Signed-off-by: Ceng23333 &lt;441651826@qq.com&gt;
diff --git a/deployment/cases/9g_8b/validate.sh b/deployment/cases/9g_8b/validate.sh
@@ -31,6 +31,47 @@ REGISTRY_URL="http://${REGISTRY_IP}:${REGISTRY_PORT}"
 ROUTER_URL="http://${REGISTRY_IP}:${ROUTER_PORT}"
 BABYSITTER_URL="http://${REGISTRY_IP}:${BABYSITTER_HEALTH_PORT}"
 
+# Wait for server to be ready: (1) registry, then (2) model loaded (/models has 9g_8b_thinking)
+VALIDATE_WAIT_TIMEOUT_SEC="${VALIDATE_WAIT_TIMEOUT_SEC:-300}"
+VALIDATE_WAIT_INTERVAL_SEC="${VALIDATE_WAIT_INTERVAL_SEC:-5}"
+WAIT_START=$(date +%s)
+echo "Waiting for server to be ready (timeout: ${VALIDATE_WAIT_TIMEOUT_SEC}s, interval: ${VALIDATE_WAIT_INTERVAL_SEC}s)..."
+
+# Phase 1: wait for registry
+while true; do
+  if curl -s --connect-timeout 3 "${REGISTRY_URL}/health" >/dev/null 2>&1; then
+    ELAPSED=$(($(date +%s) - WAIT_START))
+    echo "  -> Registry ready after ${ELAPSED}s"
+    break
+  fi
+  ELAPSED=$(($(date +%s) - WAIT_START))
+  if [ "${ELAPSED}" -ge "${VALIDATE_WAIT_TIMEOUT_SEC}" ]; then
+    echo "  -> Timeout after ${ELAPSED}s (registry not responding)"
+    break
+  fi
+  echo "  -> Waiting for registry... (${ELAPSED}s elapsed)"
+  sleep "${VALIDATE_WAIT_INTERVAL_SEC}"
+done
+
+# Phase 2: wait for model loaded (router /models returns 9g_8b_thinking)
+echo "  -> Waiting for model (9g_8b_thinking) to load..."
+while true; do
+  MODELS=$(curl -s --connect-timeout 5 "${ROUTER_URL}/models" 2>/dev/null || echo "{}")
+  if echo "${MODELS}" | grep -q "9g_8b_thinking"; then
+    ELAPSED=$(($(date +%s) - WAIT_START))
+    echo "  -> Model ready after ${ELAPSED}s"
+    break
+  fi
+  ELAPSED=$(($(date +%s) - WAIT_START))
+  if [ "${ELAPSED}" -ge "${VALIDATE_WAIT_TIMEOUT_SEC}" ]; then
+    echo "  -> Timeout after ${ELAPSED}s (model not loaded)"
+    break
+  fi
+  echo "  -> Waiting for model... (${ELAPSED}s elapsed)"
+  sleep "${VALIDATE_WAIT_INTERVAL_SEC}"
+done
+echo ""
+
 FAILED=0
 
 echo "=========================================="
diff --git a/docker/nvidia/build-image.sh b/docker/nvidia/build-image.sh
@@ -20,7 +20,8 @@ PROJECT_ROOT="$(cd "${SCRIPT_DIR}/../.." && pwd)"
 
 DEFAULT_BASE_IMAGE="nvcr.io/nvidia/pytorch:25.12-py3"
 BASE_IMAGE="${BASE_IMAGE:-${DEFAULT_BASE_IMAGE}}"
-IMAGE_TAG="${IMAGE_TAG:-infinilm-svc:nvidia}"
+# Default: unique tag with timestamp; also tag as infinilm-svc:nvidia for deps reuse
+IMAGE_TAG="${IMAGE_TAG:-infinilm-svc:nvidia-$(date +%Y%m%d-%H%M%S)}"
 NO_CACHE=""
 # Accept a --phase flag (for compatibility with metax build script),
 # but this simple NVIDIA builder is effectively single-phase.
diff --git a/script/launch_babysitter_9g8b.sh b/script/launch_babysitter_9g8b.sh
@@ -24,10 +24,10 @@ RESTART_DELAY=5
 HEARTBEAT_INTERVAL=30
 
 # InfiniLM Server Configuration (for SERVICE_TYPE="InfiniLM")
-MODEL_PATH="/models/9g_8b_thinking"  # Required for InfiniLM
+MODEL_PATH="${MODEL_PATH:-/models/9g_8b_thinking}"  # Required for InfiniLM; override via env
 MODEL_NAME=""  # Model name for /models endpoint (leave empty to use directory name from MODEL_PATH, like vLLM/llama.cpp)
 LAUNCH_SCRIPT=""  # Path to launch_server.py (leave empty for auto-detect)
-DEV="metax"  # Device type: nvidia, metax, etc.
+DEV="${DEV:-metax}"  # Device type: nvidia, metax, etc.; override via env
 NDEV=1  # Number of devices
 MAX_BATCH=16  # Max batch size
 MAX_TOKENS=""  # Optional, leave empty for default