delete FD_DISABLE_CHUNKED_PREFILL and FD_USE_GET_SAVE_OUTPUT_V1

lizexu123 · lizexu123 · commit 6bc1ed298906 · 2025-10-28T17:41:54.000+08:00
diff --git a/fastdeploy/model_executor/pre_and_post_process.py b/fastdeploy/model_executor/pre_and_post_process.py
@@ -857,8 +857,7 @@ def post_process_pooling(
             )
 
     if not skip_save_output:
-        if envs.FD_USE_GET_SAVE_OUTPUT_V1:
-            if save_each_rank or model_output.mp_rank == 0:
-                output = _build_stream_transfer_data(output_tokens=None, pooler_outputs=pooler_output.outputs)
+        if save_each_rank or model_output.mp_rank == 0:
+            output = _build_stream_transfer_data(output_tokens=None, pooler_outputs=pooler_output.outputs)
 
-                async_output_queue.put(output)
+            async_output_queue.put(output)
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
@@ -940,7 +940,7 @@ def get_supported_pooling_tasks(self) -> list[PoolingTask]:
         if self.cache_config.enable_chunked_prefill and "encode" in supported_tasks:
             supported_tasks.remove("encode")
 
-            logger.warning(
+            logger.debug(
                 "Chunked prefill is not supported with "
                 "encode task which using ALL pooling. "
                 "Please turn off chunked prefill by export=FD_DISABLE_CHUNKED_PREFILL=1 before using it."
@@ -1537,6 +1537,11 @@ def _dummy_pooler_run_task(
 
         req_num_tokens = num_tokens // num_reqs
 
+        print("num_tokens", num_tokens)
+        print("max_num_seqs", max_num_seqs)
+        print("num_reqs", num_reqs)
+        print("min_tokens_per_req", min_tokens_per_req)
+        print("num_scheduled_token_list", num_scheduled_tokens_list)
         dummy_prompt_lens = paddle.to_tensor(num_scheduled_tokens_list, dtype="int64")
         dummy_token_ids = paddle.zeros(
             [num_reqs, req_num_tokens],