fix(vlm): add max_tokens parameter to VLM completion calls to prevent vLLM rejection (#689)

mvanhorn · claude · web-flow · commit 985c60af2a7b · 2026-03-18T11:57:27.000+08:00
* fix(vlm): add max_tokens parameter to VLM completion calls to prevent vLLM rejection Without max_tokens, vLLM allocates all context space to input tokens and assigns 0 output tokens, rejecting requests with "You passed N input tokens and requested 0 output tokens." Even when prompts fit, the model has no guaranteed output space, leading to truncated or empty responses. This adds max_tokens support across all VLM backends: - VLMConfig: new max_tokens field (default 4096) - VLMBase: reads max_tokens from config dict - OpenAI, VolcEngine, LiteLLM backends: pass max_tokens in API calls - Conditional inclusion (if self.max_tokens) so None disables the limit Fixes #674 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com> * fix(vlm): default max_tokens to None to preserve provider behavior Change default from 4096 to None so max_tokens is only sent when explicitly configured. Prevents silently truncating outputs on OpenAI/VolcEngine where omitting max_tokens lets the server choose. Also use `is not None` instead of truthiness for max_tokens guards. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com> --------- Co-authored-by: Matt Van Horn <455140+mvanhorn@users.noreply.github.com> Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com>
diff --git a/openviking/models/vlm/backends/litellm_vlm.py b/openviking/models/vlm/backends/litellm_vlm.py
@@ -199,6 +199,8 @@ def _build_kwargs(self, model: str, messages: list) -> dict[str, Any]:
             "messages": messages,
             "temperature": self.temperature,
         }
+        if self.max_tokens is not None:
+            kwargs["max_tokens"] = self.max_tokens
 
         if self.api_key:
             kwargs["api_key"] = self.api_key
diff --git a/openviking/models/vlm/backends/openai_vlm.py b/openviking/models/vlm/backends/openai_vlm.py
@@ -62,6 +62,8 @@ def get_completion(self, prompt: str, thinking: bool = False) -> str:
             "messages": [{"role": "user", "content": prompt}],
             "temperature": self.temperature,
         }
+        if self.max_tokens is not None:
+            kwargs["max_tokens"] = self.max_tokens
 
         response = client.chat.completions.create(**kwargs)
         self._update_token_usage_from_response(response)
@@ -77,6 +79,8 @@ async def get_completion_async(
             "messages": [{"role": "user", "content": prompt}],
             "temperature": self.temperature,
         }
+        if self.max_tokens is not None:
+            kwargs["max_tokens"] = self.max_tokens
 
         last_error = None
         for attempt in range(max_retries + 1):
@@ -165,6 +169,8 @@ def get_vision_completion(
             "messages": [{"role": "user", "content": content}],
             "temperature": self.temperature,
         }
+        if self.max_tokens is not None:
+            kwargs["max_tokens"] = self.max_tokens
 
         response = client.chat.completions.create(**kwargs)
         self._update_token_usage_from_response(response)
@@ -189,6 +195,8 @@ async def get_vision_completion_async(
             "messages": [{"role": "user", "content": content}],
             "temperature": self.temperature,
         }
+        if self.max_tokens is not None:
+            kwargs["max_tokens"] = self.max_tokens
 
         response = await client.chat.completions.create(**kwargs)
         self._update_token_usage_from_response(response)
diff --git a/openviking/models/vlm/backends/volcengine_vlm.py b/openviking/models/vlm/backends/volcengine_vlm.py
@@ -68,6 +68,8 @@ def get_completion(self, prompt: str, thinking: bool = False) -> str:
             "temperature": self.temperature,
             "thinking": {"type": "disabled" if not thinking else "enabled"},
         }
+        if self.max_tokens is not None:
+            kwargs["max_tokens"] = self.max_tokens
 
         response = client.chat.completions.create(**kwargs)
         self._update_token_usage_from_response(response)
@@ -84,6 +86,8 @@ async def get_completion_async(
             "temperature": self.temperature,
             "thinking": {"type": "disabled" if not thinking else "enabled"},
         }
+        if self.max_tokens is not None:
+            kwargs["max_tokens"] = self.max_tokens
 
         last_error = None
         for attempt in range(max_retries + 1):
@@ -235,6 +239,8 @@ def get_vision_completion(
             "temperature": self.temperature,
             "thinking": {"type": "disabled" if not thinking else "enabled"},
         }
+        if self.max_tokens is not None:
+            kwargs["max_tokens"] = self.max_tokens
 
         response = client.chat.completions.create(**kwargs)
         self._update_token_usage_from_response(response)
@@ -260,6 +266,8 @@ async def get_vision_completion_async(
             "temperature": self.temperature,
             "thinking": {"type": "disabled" if not thinking else "enabled"},
         }
+        if self.max_tokens is not None:
+            kwargs["max_tokens"] = self.max_tokens
 
         response = await client.chat.completions.create(**kwargs)
         self._update_token_usage_from_response(response)
diff --git a/openviking/models/vlm/base.py b/openviking/models/vlm/base.py
@@ -25,6 +25,7 @@ def __init__(self, config: Dict[str, Any]):
         self.api_base = config.get("api_base")
         self.temperature = config.get("temperature", 0.0)
         self.max_retries = config.get("max_retries", 2)
+        self.max_tokens = config.get("max_tokens")
 
         # Token usage tracking
         self._token_tracker = TokenUsageTracker()
diff --git a/openviking_cli/utils/config/vlm_config.py b/openviking_cli/utils/config/vlm_config.py
@@ -26,6 +26,10 @@ class VLMConfig(BaseModel):
 
     default_provider: Optional[str] = Field(default=None, description="Default provider name")
 
+    max_tokens: Optional[int] = Field(
+        default=None, description="Maximum tokens for VLM completion output (None = provider default)"
+    )
+
     thinking: bool = Field(default=False, description="Enable thinking mode for VolcEngine models")
 
     max_concurrent: int = Field(
@@ -134,6 +138,7 @@ def _build_vlm_config_dict(self) -> Dict[str, Any]:
             "max_retries": self.max_retries,
             "provider": name,
             "thinking": self.thinking,
+            "max_tokens": self.max_tokens,
         }
 
         if config:

Original file line number	Diff line number	Diff line change
`@@ -199,6 +199,8 @@ def _build_kwargs(self, model: str, messages: list) -> dict[str, Any]:`
`199`	`199`	`"messages": messages,`
`200`	`200`	`"temperature": self.temperature,`
`201`	`201`	`}`
	`202`	`+ if self.max_tokens is not None:`
	`203`	`+ kwargs["max_tokens"] = self.max_tokens`
`202`	`204`
`203`	`205`	`if self.api_key:`
`204`	`206`	`kwargs["api_key"] = self.api_key`