yardenas
diff --git a/‎.pre-commit-config.yaml‎
Lines changed: 6 additions & 0 deletions b/‎.pre-commit-config.yaml‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎main.py‎
Lines changed: 0 additions & 31 deletions b/‎main.py‎
Lines changed: 0 additions & 31 deletions
diff --git a/‎ss2r/algorithms/jax/ppo/__init__.py‎ b/‎ss2r/algorithms/jax/ppo/__init__.py‎
diff --git a/‎ss2r/algorithms/jax/__init__.py‎ renamed to ‎ss2r/algorithms/sac/__init__.py‎ b/‎ss2r/algorithms/jax/__init__.py‎ renamed to ‎ss2r/algorithms/sac/__init__.py‎
diff --git a/‎ss2r/algorithms/sac/losses.py‎
Lines changed: 137 additions & 0 deletions b/‎ss2r/algorithms/sac/losses.py‎
Lines changed: 137 additions & 0 deletions
diff --git a/‎ss2r/algorithms/sac/networks.py‎
Lines changed: 71 additions & 0 deletions b/‎ss2r/algorithms/sac/networks.py‎
Lines changed: 71 additions & 0 deletions
@@ -19,6 +19,12 @@ repos:
     rev: v0.1.5
     hooks:
       - id: ruff
+        name: lint with ruff
+      - id: ruff
+        name: sort imports with ruff
+        args: [--select, I, --fix]
+      - id: ruff-format
+        name: format with ruff
   - repo: https://github.com/pre-commit/mirrors-mypy
     rev: v1.2.0
     hooks:
 
@@ -0,0 +1,137 @@
+# Copyright 2024 The Brax Authors.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+"""Soft Actor-Critic losses.
+
+See: https://arxiv.org/pdf/1812.05905.pdf
+"""
+from typing import Any, TypeAlias
+
+import jax
+import jax.numpy as jnp
+from brax.training import types
+from brax.training.agents.sac import networks as sac_networks
+from brax.training.types import Params, PRNGKey
+
+Transition: TypeAlias = types.Transition
+
+
+def make_losses(
+    sac_network: sac_networks.SACNetworks,
+    reward_scaling: float,
+    discounting: float,
+    action_size: int,
+):
+    """Creates the SAC losses."""
+
+    target_entropy = -0.5 * action_size
+    policy_network = sac_network.policy_network
+    q_network = sac_network.q_network
+    parametric_action_distribution = sac_network.parametric_action_distribution
+
+    def alpha_loss(
+        log_alpha: jnp.ndarray,
+        policy_params: Params,
+        normalizer_params: Any,
+        transitions: Transition,
+        key: PRNGKey,
+    ) -> jnp.ndarray:
+        """Eq 18 from https://arxiv.org/pdf/1812.05905.pdf."""
+        dist_params = policy_network.apply(
+            normalizer_params, policy_params, transitions.observation
+        )
+        action = parametric_action_distribution.sample_no_postprocessing(
+            dist_params, key
+        )
+        log_prob = parametric_action_distribution.log_prob(dist_params, action)
+        alpha = jnp.exp(log_alpha)
+        alpha_loss = alpha * jax.lax.stop_gradient(-log_prob - target_entropy)
+        return jnp.mean(alpha_loss)
+
+    def critic_loss(
+        q_params: Params,
+        policy_params: Params,
+        normalizer_params: Any,
+        target_q_params: Params,
+        alpha: jnp.ndarray,
+        transitions: Transition,
+        key: PRNGKey,
+    ) -> jnp.ndarray:
+        domain_params = transitions.extras.get("domain_parameters", None)
+        if domain_params is not None:
+            action = jnp.concatenate([transitions.action, domain_params], axis=-1)
+        else:
+            action = transitions.action
+        q_old_action = q_network.apply(
+            normalizer_params, q_params, transitions.observation, action
+        )
+        next_dist_params = policy_network.apply(
+            normalizer_params, policy_params, transitions.next_observation
+        )
+        next_action = parametric_action_distribution.sample_no_postprocessing(
+            next_dist_params, key
+        )
+        next_log_prob = parametric_action_distribution.log_prob(
+            next_dist_params, next_action
+        )
+        next_action = parametric_action_distribution.postprocess(next_action)
+        if domain_params is not None:
+            next_action = jnp.concatenate([next_action, domain_params], axis=-1)
+        next_q = q_network.apply(
+            normalizer_params,
+            target_q_params,
+            transitions.next_observation,
+            next_action,
+        )
+        next_v = jnp.min(next_q, axis=-1) - alpha * next_log_prob
+        target_q = jax.lax.stop_gradient(
+            transitions.reward * reward_scaling
+            + transitions.discount * discounting * next_v
+        )
+        q_error = q_old_action - jnp.expand_dims(target_q, -1)
+
+        # Better bootstrapping for truncated episodes.
+        truncation = transitions.extras["state_extras"]["truncation"]
+        q_error *= jnp.expand_dims(1 - truncation, -1)
+
+        q_loss = 0.5 * jnp.mean(jnp.square(q_error))
+        return q_loss
+
+    def actor_loss(
+        policy_params: Params,
+        normalizer_params: Any,
+        q_params: Params,
+        alpha: jnp.ndarray,
+        transitions: Transition,
+        key: PRNGKey,
+    ) -> jnp.ndarray:
+        dist_params = policy_network.apply(
+            normalizer_params, policy_params, transitions.observation
+        )
+        action = parametric_action_distribution.sample_no_postprocessing(
+            dist_params, key
+        )
+        log_prob = parametric_action_distribution.log_prob(dist_params, action)
+        action = parametric_action_distribution.postprocess(action)
+        domain_params = transitions.extras.get("domain_parameters", None)
+        if domain_params is not None:
+            action = jnp.concatenate([action, domain_params], axis=-1)
+        q_action = q_network.apply(
+            normalizer_params, q_params, transitions.observation, action
+        )
+        min_q = jnp.min(q_action, axis=-1)
+        actor_loss = alpha * log_prob - min_q
+        return jnp.mean(actor_loss)
+
+    return alpha_loss, critic_loss, actor_loss
@@ -0,0 +1,71 @@
+# Copyright 2024 The Brax Authors.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+"""SAC networks."""
+
+from typing import Protocol, Sequence, TypeAlias, TypeVar
+
+import brax.training.agents.sac.networks as sac_networks
+from brax.training import distribution, networks, types
+from flax import linen
+
+make_inference_fn = sac_networks.make_inference_fn
+SACNetworks: TypeAlias = sac_networks.SACNetworks
+NetworkType = TypeVar("NetworkType", covariant=True)
+
+
+class DomainRandomizationNetworkFactory(Protocol[NetworkType]):
+    def __call__(
+        self,
+        observation_size: int,
+        action_size: int,
+        preprocess_observations_fn: types.PreprocessObservationFn = types.identity_observation_preprocessor,
+        *,
+        domain_randomization_size: int = 0,
+    ) -> NetworkType:
+        pass
+
+
+def make_sac_networks(
+    observation_size: int,
+    action_size: int,
+    preprocess_observations_fn: types.PreprocessObservationFn = types.identity_observation_preprocessor,
+    hidden_layer_sizes: Sequence[int] = (256, 256),
+    activation: networks.ActivationFn = linen.relu,
+    *,
+    domain_randomization_size: int = 0,
+) -> SACNetworks:
+    """Make SAC networks."""
+    parametric_action_distribution = distribution.NormalTanhDistribution(
+        event_size=action_size
+    )
+    policy_network = networks.make_policy_network(
+        parametric_action_distribution.param_size,
+        observation_size,
+        preprocess_observations_fn=preprocess_observations_fn,
+        hidden_layer_sizes=hidden_layer_sizes,
+        activation=activation,
+    )
+    q_network = networks.make_q_network(
+        observation_size,
+        action_size + domain_randomization_size,
+        preprocess_observations_fn=preprocess_observations_fn,
+        hidden_layer_sizes=hidden_layer_sizes,
+        activation=activation,
+    )
+    return SACNetworks(
+        policy_network=policy_network,
+        q_network=q_network,
+        parametric_action_distribution=parametric_action_distribution,
+    )