fix test_return_token_ids.py and update enable_thinking

lizexu123 · lizexu123 · commit ad2f7b6960ed · 2025-10-27T16:27:20.000+08:00
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
@@ -962,6 +962,9 @@ def _init_share_inputs(self, max_num_seqs: int):
         self.share_inputs["kv_num_blocks_x_cpu"] = None  # CPU
 
         # Initialize thinking related buffers
+        self.share_inputs["enable_thinking"] = paddle.full(shape=[max_num_seqs, 1], fill_value=False, dtype="bool")
+        self.share_inputs["need_think_end"] = paddle.full(shape=[max_num_seqs, 1], fill_value=0, dtype="int32")
+        self.share_inputs["reasoning_index"] = paddle.full(shape=[max_num_seqs, 1], fill_value=0, dtype="int32")
         self.share_inputs["max_think_lens"] = paddle.full(shape=[max_num_seqs, 1], fill_value=-1, dtype="int32")
         self.share_inputs["limit_think_status"] = paddle.full(shape=[max_num_seqs, 1], fill_value=0, dtype="int32")
 
diff --git a/tests/pooling/test_Qwen3-Embedding_serving.py b/tests/pooling/test_Qwen3-Embedding_serving.py
@@ -273,36 +273,3 @@ def test_single_text_embedding(embedding_api_url, headers):
     else:
         print(f"Comparing with baseline: {baseline_file}")
         check_embedding_against_baseline(embedding, baseline_file, threshold=0.01)
-
-
-def test_batch_embeddings(embedding_api_url, headers):
-    """Test embedding generation for batch inputs."""
-    payload = {
-        "input": [
-            "北京天安门在哪里?",
-        ],
-        "model": "Qwen3-Embedding-0.6B",
-    }
-
-    resp = requests.post(embedding_api_url, headers=headers, json=payload)
-    assert resp.status_code == 200, f"Unexpected status code: {resp.status_code}"
-
-    result = resp.json()
-    assert "data" in result, "Response missing 'data' field"
-    assert len(result["data"]) == 1, "Expected three embedding results"
-
-    base_path = os.getenv("MODEL_PATH", "")
-
-    for idx, item in enumerate(result["data"]):
-        embedding = item["embedding"]
-
-        baseline_filename = f"Qwen3-Embedding-0.6B-batch-{idx}-baseline.json"
-        if base_path:
-            baseline_file = os.path.join(base_path, baseline_filename)
-        else:
-            baseline_file = baseline_filename
-
-        if not os.path.exists(baseline_file):
-            save_embedding_baseline(embedding, baseline_file)
-        else:
-            check_embedding_against_baseline(embedding, baseline_file, threshold=0.01)