Sooper go-to-goal v2 (#209)

ManuelWendl · web-flow · commit 79e8d6d3d017 · 2025-08-21T17:16:59.000+02:00
diff --git a/ss2r/configs/experiment/go_to_goal_mbpo_sooper.yaml b/ss2r/configs/experiment/go_to_goal_mbpo_sooper.yaml
@@ -0,0 +1,38 @@
+# @package _global_
+defaults:
+  - override /environment: go_to_goal
+  - override /agent: mbpo
+  - override /agent/data_collection: episodic
+  - override /agent/cost_robustness: pessimistic_cost_update
+  - _self_
+
+training:
+  num_timesteps: 750000
+  train_domain_randomization: false
+  eval_domain_randomization: false
+  safe: true
+  safety_budget: 25
+  action_repeat: 4
+  num_envs: 1
+  num_evals: 25
+  wandb_id: 2k0olihe
+
+agent:
+  activation: swish
+  policy_hidden_layer_sizes: [256, 256, 256]
+  value_hidden_layer_sizes: [512, 512]
+  model_hidden_layer_sizes: [400, 400, 400, 400]
+  batch_size: 256
+  min_replay_size: 5000
+  max_replay_size: 1048576
+  critic_grad_updates_per_step: 2000
+  model_grad_updates_per_step: 140000
+  num_model_rollouts: 100000
+  learning_rate: 3e-6
+  critic_learning_rate: 1e-6
+  model_learning_rate: 1e-4
+  pessimism: 12
+  optimism: 0.1
+  safety_discounting: 0.99
+  safety_filter: sooper
+  load_auxiliaries: true
diff --git a/ss2r/configs/experiment/go_to_goal_sim_to_sim_backup.yaml b/ss2r/configs/experiment/go_to_goal_sim_to_sim_backup.yaml
@@ -0,0 +1,37 @@
+# @package _global_
+defaults:
+  - mujoco_playground_dm_control
+  - override /environment: go_to_goal
+  - override /agent/cost_robustness: ucb_cost
+  - override /agent/propagation: spidr
+  - override /agent/penalizer: lagrangian
+  - _self_
+
+training:
+  num_timesteps: 5000000
+  train_domain_randomization: true
+  eval_domain_randomization: false
+  safe: true
+  safety_budget: 25
+  action_repeat: 4
+
+train_params:
+  damping:
+    x: [.9, 1.1]
+    y: [.9, 1.1]
+    z: [.9, 1.1]
+  gear:
+    x: [-0.2, 0.2]
+    z: [-0.1, 0.1]
+  mass: [1., 1.]
+
+agent:
+  activation: swish
+  safety_discounting: 0.99
+  penalizer:
+    lagrange_multiplier: 5.
+    penalty_multiplier: 2.
+    penalty_multiplier_factor: 0.25
+  propagation:
+    num_envs: 8
+    lambda_: 0.175