fix(vllm metrics): error stack trace

Signed-off-by: gitdallas <[email protected]>
opendatahub-io · Sep 17, 2024 · 54a09d6 · 54a09d6
1 parent ec193eb
commit 54a09d6
Show file tree

Hide file tree

Showing 4 changed files with 82 additions and 13 deletions.
diff --git a/frontend/src/__mocks__/mockKserveMetricsConfigMap.ts b/frontend/src/__mocks__/mockKserveMetricsConfigMap.ts
@@ -62,6 +62,51 @@ export const MOCK_KSERVE_METRICS_CONFIG_1 = `
   ]
 }`;
 
+export const MOCK_KSERVE_METRICS_CONFIG_MISSING_QUERY = `{
+    "config": [
+			{
+				"title": "Requests per 5 minutes",
+				"type": "REQUEST_COUNT",
+				"queries": [
+					{
+						"title": "Number of successful incoming requests",
+						"query": "round(sum(increase(vllm:request_success_total{namespace='test-project',model_name='test vllm'}[5m])))"
+					}
+				]
+			},
+			{
+				"title": "Average response time (ms)",
+				"type": "MEAN_LATENCY",
+				"queries": [
+					{
+						"title": "Average e2e latency",
+						"query": "histogram_quantile(0.5, sum(rate(vllm:e2e_request_latency_seconds_bucket{namespace='test-project', model_name='test-vllm'}[1m])) by (le, model_name))"
+					}
+				]
+			},
+			{
+				"title": "CPU utilization %",
+				"type": "CPU_USAGE",
+				"queries": [
+					{
+						"title": "CPU usage",
+						"query":  "sum(pod:container_cpu_usage:sum{namespace='test-project', pod=~'test-vllm-predictor-.*'})/sum(kube_pod_resource_limit{resource='cpu', pod=~'test-vllm-predictor-.*', namespace='test-project'})"
+					}
+				]
+			},
+			{
+				"title": "Memory utilization %",
+				"type": "MEMORY_USAGE",
+				"queries": [
+					{
+						"title": "Memory usage",
+						"query":  "sum(container_memory_working_set_bytes{namespace='test-project', pod=~'test-vllm-predictor-.*'})/sum(kube_pod_resource_limit{resource='memory', pod=~'test-vllm-predictor-.*', namespace='test-project'})"
+					}
+				]
+			}
+		]
+  }`;
+
 export const MOCK_KSERVE_METRICS_CONFIG_2 =
   '{ I am malformed JSON and I am here to ruin your day }';
 

diff --git a/frontend/src/__tests__/cypress/cypress/tests/mocked/modelServing/modelMetrics.cy.ts b/frontend/src/__tests__/cypress/cypress/tests/mocked/modelServing/modelMetrics.cy.ts
@@ -39,6 +39,7 @@ import {
 import {
   MOCK_KSERVE_METRICS_CONFIG_2,
   MOCK_KSERVE_METRICS_CONFIG_3,
+  MOCK_KSERVE_METRICS_CONFIG_MISSING_QUERY,
   mockKserveMetricsConfigMap,
 } from '~/__mocks__/mockKserveMetricsConfigMap';
 
@@ -698,6 +699,25 @@ describe('KServe performance metrics', () => {
     modelMetricsKserve.getAllMetricsCharts().should('have.length', 2);
   });
 
+  it('charts should not error out if a query is missing', () => {
+    initIntercepts({
+      disableBiasMetrics: false,
+      disablePerformanceMetrics: false,
+      disableKServeMetrics: false,
+      hasServingData: true,
+      hasBiasData: false,
+      inferenceServices: [mockInferenceServiceK8sResource({ isModelMesh: false })],
+    });
+
+    cy.interceptK8s(
+      ConfigMapModel,
+      mockKserveMetricsConfigMap({ config: MOCK_KSERVE_METRICS_CONFIG_MISSING_QUERY }),
+    );
+
+    modelMetricsKserve.visit('test-project', 'test-inference-service');
+    modelMetricsKserve.getAllMetricsCharts().should('have.length', 4);
+  });
+
   it('charts should show data when serving data is available', () => {
     initIntercepts({
       disableBiasMetrics: false,

diff --git a/frontend/src/api/prometheus/kservePerformanceMetrics.ts b/frontend/src/api/prometheus/kservePerformanceMetrics.ts
@@ -23,8 +23,8 @@ export const useFetchKserveRequestCountData = (
 ): RequestCountData => {
   const active = useIsAreaAvailable(SupportedArea.K_SERVE_METRICS).status;
 
-  const successQuery = metricsDef.queries[0].query;
-  const failedQuery = metricsDef.queries[1].query;
+  const successQuery = metricsDef.queries[0]?.query;
+  const failedQuery = metricsDef.queries[1]?.query;
 
   const successCount = useQueryRangeResourceData(
     active,
@@ -76,7 +76,7 @@ export const useFetchKserveMeanLatencyData = (
 
   const inferenceLatency = useQueryRangeResourceData(
     active,
-    metricsDef.queries[0].query,
+    metricsDef.queries[0]?.query,
     endInMs,
     timeframe,
     defaultResponsePredicate,
@@ -85,7 +85,7 @@ export const useFetchKserveMeanLatencyData = (
 
   const requestLatency = useQueryRangeResourceData(
     active,
-    metricsDef.queries[1].query,
+    metricsDef.queries[1]?.query,
     endInMs,
     timeframe,
     defaultResponsePredicate,
@@ -123,7 +123,7 @@ export const useFetchKserveCpuUsageData = (
 
   const cpuUsage = useQueryRangeResourceData(
     active,
-    metricsDef.queries[0].query,
+    metricsDef.queries[0]?.query,
     endInMs,
     timeframe,
     defaultResponsePredicate,
@@ -159,7 +159,7 @@ export const useFetchKserveMemoryUsageData = (
 
   const memoryUsage = useQueryRangeResourceData(
     active,
-    metricsDef.queries[0].query,
+    metricsDef.queries[0]?.query,
     endInMs,
     timeframe,
     defaultResponsePredicate,

diff --git a/frontend/src/concepts/metrics/kserve/content/KserveMeanLatencyGraph.tsx b/frontend/src/concepts/metrics/kserve/content/KserveMeanLatencyGraph.tsx
@@ -32,13 +32,17 @@ const KserveMeanLatencyGraph: React.FC<KserveMeanLatencyGraphProps> = ({
             data: convertPrometheusNaNToZero(inferenceLatency.data),
           },
         },
-        {
-          name: graphDefinition.queries[1].title,
-          metric: {
-            ...requestLatency,
-            data: convertPrometheusNaNToZero(requestLatency.data),
-          },
-        },
+        ...(graphDefinition.queries[1]
+          ? [
+              {
+                name: graphDefinition.queries[1].title,
+                metric: {
+                  ...requestLatency,
+                  data: convertPrometheusNaNToZero(requestLatency.data),
+                },
+              },
+            ]
+          : []),
       ]}
       color="green"
       title={graphDefinition.title}