Fix SGLang compatibility: add hasattr checks for vLLM-specific methods

PrinsYin · PrinsYin · commit 285512b26809 · 2025-12-01T20:07:40.000Z
diff --git a/nemo_rl/algorithms/grpo.py b/nemo_rl/algorithms/grpo.py
@@ -1146,7 +1146,8 @@ def grpo_train(
                 dynamic_sampling_num_gen_batches += 1
                 with timer.time("generation"):
                     # Clear vLLM logger metrics for each generation step
-                    policy_generation.clear_vllm_logger_metrics()
+                    if hasattr(policy_generation, "clear_vllm_logger_metrics"):
+                        policy_generation.clear_vllm_logger_metrics()
                     # Use penguin rollouts if enabled. We cascade penguin first since penguin requires async rollouts.
                     if _should_use_penguin(master_config):
                         generation_config = master_config["policy"]["generation"]
@@ -1198,7 +1199,11 @@ def grpo_train(
                     policy_generation.finish_generation()
                     # Collect vLLM logger metrics for performance reporting after each generation step
                     # inflight batch sizes and num pending samples are collected from each vLLM worker
-                    vllm_logger_metrics = policy_generation.get_vllm_logger_metrics()
+                    vllm_logger_metrics = (
+                        policy_generation.get_vllm_logger_metrics()
+                        if hasattr(policy_generation, "get_vllm_logger_metrics")
+                        else None
+                    )
 
                 repeated_batch = scale_rewards(
                     repeated_batch, master_config["grpo"]["reward_scaling"]
@@ -1984,9 +1989,9 @@ def async_grpo_train(
             trajectory_collector.resume.remote()
 
     print("✅ All setup complete, starting buffer wait...")
-
     # Clear vLLM logger metrics after at start of training
-    policy_generation.clear_vllm_logger_metrics()
+    if hasattr(policy_generation, "clear_vllm_logger_metrics"):
+        policy_generation.clear_vllm_logger_metrics()
 
     # Wait for initial buffer fill
     print(
@@ -2235,7 +2240,11 @@ def async_grpo_train(
 
                     # Collect vLLM logger metrics for performance reporting
                     # inflight batch sizes and num pending samples are collected from each vLLM worker
-                    vllm_logger_metrics = policy_generation.get_vllm_logger_metrics()
+                    vllm_logger_metrics = (
+                        policy_generation.get_vllm_logger_metrics()
+                        if hasattr(policy_generation, "get_vllm_logger_metrics")
+                        else None
+                    )
 
                     # Only the actual refit/weight transfer should be counted as weight_sync
                     print("🔄 Performing policy generation refit...")
@@ -2250,8 +2259,8 @@ def async_grpo_train(
                         trajectory_collector.set_weight_version.remote(weight_version)
                         trajectory_collector.resume_after_refit.remote()
 
-                # Clear vLLM logger metrics after each refit (weight sync), starting a new logging cycle
-                policy_generation.clear_vllm_logger_metrics()
+                if hasattr(policy_generation, "clear_vllm_logger_metrics"):
+                    policy_generation.clear_vllm_logger_metrics()
 
                 # Validation
                 val_metrics, validation_timings = None, None