small-thinking · yxjiang · Jul 5, 2025
diff --git a/recipes/dev/grpo_full_finetune_distributed.py b/recipes/dev/grpo_full_finetune_distributed.py
@@ -21,7 +21,7 @@
 from torchtune.config._utils import _get_component_from_path
 from torchtune.datasets import ConcatDataset
 from torchtune.dev.rl.generation import generate
-from torchtune.dev.rl.rewards import batched_rewards
+from torchtune.dev.grpo.rewards import batch_shaped_correctness_reward
 from torchtune.dev.rl.types import GRPOStats, GRPOTrajectory
 from torchtune.modules import local_kv_cache
 from torchtune.recipe_interfaces import FTRecipeInterface
@@ -646,7 +646,7 @@ def generate_trajectory(
         # Do some reward modelingggggggg
         # responses :: [B x G, L]
         responses = responses.reshape(batch_size, grpo_size, -1)  # [B, G, L]
-        rewards, successes = batched_rewards(self._tokenizer, responses, answers)
+        rewards, successes = batch_shaped_correctness_reward(self._tokenizer, responses, answers)
         rewards = rewards.to(self._device)  # [B, G]
         successes = successes.to(self._device)  # [B, G]