Farama-Foundation · pseudo-rnd-thoughts · Mar 31, 2023 · Mar 27, 2023 · Mar 27, 2023 · Mar 28, 2023
diff --git a/scripts/install_dm_lab.sh b/scripts/install_dm_lab.sh
@@ -32,9 +32,11 @@ fi
 
 pip3 install numpy
 
+# TODO: fix installation issues on MacOS
 # Build
 if [ ! -d "lab" ]; then
   git clone https://github.com/deepmind/lab.git
+fi
 cd lab
 echo 'build --cxxopt=-std=c++17' > .bazelrc
 bazel build -c opt //python/pip_package:build_pip_package

diff --git a/shimmy/dm_control_compatibility.py b/shimmy/dm_control_compatibility.py
@@ -16,6 +16,7 @@
 from dm_control.rl import control
 from gymnasium.core import ObsType
 from gymnasium.envs.mujoco.mujoco_rendering import MujocoRenderer
+from gymnasium.utils import EzPickle
 
 from shimmy.utils.dm_env import dm_env_step2gym_step, dm_spec2gym_space
 
@@ -27,7 +28,7 @@ class EnvType(Enum):
     RL_CONTROL = 1
 
 
-class DmControlCompatibilityV0(gymnasium.Env[ObsType, np.ndarray]):
+class DmControlCompatibilityV0(gymnasium.Env[ObsType, np.ndarray], EzPickle):
     """This compatibility wrapper converts a dm-control environment into a gymnasium environment.
 
     Dm-control is DeepMind's software stack for physics-based simulation and Reinforcement Learning environments, using MuJoCo physics.
@@ -57,6 +58,9 @@ def __init__(
         camera_id: int = 0,
     ):
         """Initialises the environment with a render mode along with render information."""
+        EzPickle.__init__(
+            self, env, render_mode, render_height, render_width, camera_id
+        )
         self._env = env
         self.env_type = self._find_env_type(env)
 

diff --git a/shimmy/dm_control_multiagent_compatibility.py b/shimmy/dm_control_multiagent_compatibility.py
@@ -10,6 +10,7 @@
 import gymnasium
 import numpy as np
 from gymnasium.envs.mujoco.mujoco_rendering import MujocoRenderer
+from gymnasium.utils import EzPickle
 from pettingzoo.utils.env import ActionDict, AgentID, ObsDict, ParallelEnv
 
 from shimmy.utils.dm_env import dm_obs2gym_obs, dm_spec2gym_space
@@ -62,7 +63,7 @@ def _unravel_ma_timestep(
     )
 
 
-class DmControlMultiAgentCompatibilityV0(ParallelEnv):
+class DmControlMultiAgentCompatibilityV0(ParallelEnv, EzPickle):
     """This compatibility wrapper converts multi-agent dm-control environments, primarily soccer, into a Pettingzoo environment.
 
     Dm-control is DeepMind's software stack for physics-based simulation and Reinforcement Learning environments,
@@ -84,6 +85,7 @@ def __init__(
             env (dm_env.Environment): dm control multi-agent environment
             render_mode (Optional[str]): render_mode
         """
+        EzPickle.__init__(self, env=env, render_mode=render_mode)
         super().__init__()
         self._env = env
         self.render_mode = render_mode

diff --git a/tests/test_atari.py b/tests/test_atari.py
@@ -1,4 +1,5 @@
 """Tests the ale-py environments are correctly registered."""
+import pickle
 import warnings
 
 import gymnasium as gym
@@ -7,7 +8,7 @@
 from ale_py.roms import utils as rom_utils
 from gymnasium.envs.registration import registry
 from gymnasium.error import Error
-from gymnasium.utils.env_checker import check_env
+from gymnasium.utils.env_checker import check_env, data_equivalence
 
 from shimmy.utils.envs_configs import ALL_ATARI_GAMES
 
@@ -47,3 +48,63 @@ def test_atari_envs(env_id):
         assert isinstance(warning_message.message, Warning)
         if warning_message.message.args[0] not in CHECK_ENV_IGNORE_WARNINGS:
             raise Error(f"Unexpected warning: {warning_message.message}")
+
+
+@pytest.mark.parametrize(
+    "env_id",
+    [
+        env_id
+        for env_id, env_spec in registry.items()
+        if "Pong" in env_id and env_spec.entry_point == "shimmy.atari_env:AtariEnv"
+    ],
+)
+def test_atari_pickle(env_id):
+    """Tests the atari envs, as there are 1000 possible environment, we only test the Pong variants."""
+    env_1 = gym.make(env_id)
+    env_2 = pickle.loads(pickle.dumps(env_1))
+
+    obs_1, info_1 = env_1.reset(seed=42)
+    obs_2, info_2 = env_2.reset(seed=42)
+    assert data_equivalence(obs_1, obs_2)
+    assert data_equivalence(info_1, info_2)
+    for _ in range(100):
+        actions = int(env_1.action_space.sample())
+        obs_1, reward_1, term_1, trunc_1, info_1 = env_1.step(actions)
+        obs_2, reward_2, term_2, trunc_2, info_2 = env_2.step(actions)
+        assert data_equivalence(obs_1, obs_2)
+        assert reward_1 == reward_2
+        assert term_1 == term_2 and trunc_1 == trunc_2
+        assert data_equivalence(info_1, info_2)
+
+    env_1.close()
+    env_2.close()
+
+
+@pytest.mark.parametrize(
+    "env_id",
+    [
+        env_id
+        for env_id, env_spec in registry.items()
+        if "Pong" in env_id and env_spec.entry_point == "shimmy.atari_env:AtariEnv"
+    ],
+)
+def test_atari_seeding(env_id):
+    """Tests the seeding of the atari conversion wrapper."""
+    env_1 = gym.make(env_id)
+    env_2 = gym.make(env_id)
+
+    obs_1, info_1 = env_1.reset(seed=42)
+    obs_2, info_2 = env_2.reset(seed=42)
+    assert data_equivalence(obs_1, obs_2)
+    assert data_equivalence(info_1, info_2)
+    for _ in range(100):
+        actions = int(env_1.action_space.sample())
+        obs_1, reward_1, term_1, trunc_1, info_1 = env_1.step(actions)
+        obs_2, reward_2, term_2, trunc_2, info_2 = env_2.step(actions)
+        assert data_equivalence(obs_1, obs_2)
+        assert reward_1 == reward_2
+        assert term_1 == term_2 and trunc_1 == trunc_2
+        assert data_equivalence(info_1, info_2)
+
+    env_1.close()
+    env_2.close()
diff --git a/tests/test_bsuite.py b/tests/test_bsuite.py
@@ -112,15 +112,56 @@ def test_seeding(env_id):
     env_2.close()
 
 
-@pytest.mark.parametrize("env_id", BSUITE_ENV_IDS)
+# Without EzPickle:_register_bsuite_envs.<locals>._make_bsuite_env cannot be pickled
+# With EzPickle: maximum recursion limit reached
+FAILING_PICKLE_ENVS = [
+    "bsuite/bandit_noise-v0",
+    "bsuite/bandit_scale-v0",
+    "bsuite/cartpole-v0",
+    "bsuite/cartpole_noise-v0",
+    "bsuite/cartpole_scale-v0",
+    "bsuite/cartpole_swingup-v0",
+    "bsuite/catch_noise-v0",
+    "bsuite/catch_scale-v0",
+    "bsuite/mnist_noise-v0",
+    "bsuite/mnist_scale-v0",
+    "bsuite/mountain_car_noise-v0",
+    "bsuite/mountain_car_scale-v0",
+]
+
+PASSING_PICKLE_ENVS = [
+    "bsuite/mnist-v0",
+    "bsuite/umbrella_length-v0",
+    "bsuite/discounting_chain-v0",
+    "bsuite/deep_sea-v0",
+    "bsuite/umbrella_distract-v0",
+    "bsuite/catch-v0",
+    "bsuite/memory_len-v0",
+    "bsuite/mountain_car-v0",
+    "bsuite/memory_size-v0",
+    "bsuite/deep_sea_stochastic-v0",
+    "bsuite/bandit-v0",
+]
+
+
+@pytest.mark.parametrize("env_id", PASSING_PICKLE_ENVS)
 def test_pickle(env_id):
     """Test that pickling works."""
-    env = gym.make(env_id, **BSUITE_ENV_SETTINGS[env_id])
+    env_1 = gym.make(env_id, **BSUITE_ENV_SETTINGS[env_id])
+    env_2 = pickle.loads(pickle.dumps(env_1))
 
-    pickled_env = pickle.loads(pickle.dumps(env))
-    data_equivalence(env.reset(seed=42), pickled_env.reset(seed=42))
+    obs_1, info_1 = env_1.reset(seed=42)
+    obs_2, info_2 = env_2.reset(seed=42)
+    assert data_equivalence(obs_1, obs_2)
+    assert data_equivalence(info_1, info_2)
+    for _ in range(100):
+        actions = int(env_1.action_space.sample())
+        obs_1, reward_1, term_1, trunc_1, info_1 = env_1.step(actions)
+        obs_2, reward_2, term_2, trunc_2, info_2 = env_2.step(actions)
+        assert data_equivalence(obs_1, obs_2)
+        assert reward_1 == reward_2
+        assert term_1 == term_2 and trunc_1 == trunc_2
+        assert data_equivalence(info_1, info_2)
 
-    action = env.action_space.sample()
-    data_equivalence(env.step(action), pickled_env.step(action))
-    env.close()
-    pickled_env.close()
+    env_1.close()
+    env_2.close()
diff --git a/tests/test_dm_control.py b/tests/test_dm_control.py
@@ -1,4 +1,5 @@
 """Tests the functionality of the DmControlCompatibility Wrapper on dm_control envs."""
+import pickle
 import warnings
 from typing import Callable
 
@@ -103,6 +104,36 @@ def test_seeding(env_id):
     env_2.close()
 
 
+@pytest.mark.skip(
+    reason="Fatal Python error: Segmentation fault (with or without EzPickle"
+)
+@pytest.mark.parametrize("env_id", DM_CONTROL_ENV_IDS)
+def test_pickle(env_id):
+    """Test that dm-control seeding works."""
+    env_1 = gym.make(env_id)
+    env_2 = pickle.loads(pickle.dumps(env_1))
+
+    if "lqr" in env_id or (env_1.spec is not None and env_1.spec.nondeterministic):
+        # LQR fails this test currently.
+        return
+
+    obs_1, info_1 = env_1.reset(seed=42)
+    obs_2, info_2 = env_2.reset(seed=42)
+    assert data_equivalence(obs_1, obs_2)
+    assert data_equivalence(info_1, info_2)
+    for _ in range(100):
+        actions = env_1.action_space.sample()
+        obs_1, reward_1, term_1, trunc_1, info_1 = env_1.step(actions)
+        obs_2, reward_2, term_2, trunc_2, info_2 = env_2.step(actions)
+        assert data_equivalence(obs_1, obs_2)
+        assert reward_1 == reward_2
+        assert term_1 == term_2 and trunc_1 == trunc_2
+        assert data_equivalence(info_1, info_2)
+
+    env_1.close()
+    env_2.close()
+
+
 @pytest.mark.parametrize("camera_id", [0, 1])
 def test_rendering_camera_id(camera_id):
     """Test that dm-control rendering works."""

diff --git a/tests/test_dm_control_multi_agent.py b/tests/test_dm_control_multi_agent.py
@@ -1,7 +1,9 @@
 """Tests the multi-agent dm-control soccer environment."""
+import pickle
 
 import pytest
 from dm_control.locomotion import soccer as dm_soccer
+from gym.utils.env_checker import data_equivalence
 from pettingzoo.test import parallel_api_test
 
 from shimmy.dm_control_multiagent_compatibility import (
@@ -32,3 +34,97 @@ def test_check_env(walker_type):
     parallel_api_test(env)
 
     env.close()
+
+
+@pytest.mark.parametrize("walker_type", WALKER_TYPES)
+def test_seeding(walker_type):
+    """Tests the seeding of the openspiel conversion wrapper."""
+    # load envs
+    env1 = dm_soccer.load(
+        team_size=2,
+        time_limit=10.0,
+        disable_walker_contacts=False,
+        enable_field_box=True,
+        terminate_on_goal=False,
+        walker_type=walker_type,
+    )
+    env2 = dm_soccer.load(
+        team_size=2,
+        time_limit=10.0,
+        disable_walker_contacts=False,
+        enable_field_box=True,
+        terminate_on_goal=False,
+        walker_type=walker_type,
+    )
+
+    # convert the environment
+    env1 = DmControlMultiAgentCompatibilityV0(env1, render_mode=None)
+    env2 = DmControlMultiAgentCompatibilityV0(env2, render_mode=None)
+
+    env1.reset(seed=42)
+    env2.reset(seed=42)
+
+    for agent in env1.possible_agents:
+        env1.action_space(agent).seed(42)
+        env2.action_space(agent).seed(42)
+
+    while env1.agents:
+        actions1 = {agent: env1.action_space(agent).sample() for agent in env1.agents}
+        actions2 = {agent: env2.action_space(agent).sample() for agent in env2.agents}
+
+        assert data_equivalence(actions1, actions2), "Incorrect action seeding"
+
+        obs1, rewards1, terminations1, truncations1, infos1 = env1.step(actions1)
+        obs2, rewards2, terminations2, truncations2, infos2 = env2.step(actions2)
+
+        assert not data_equivalence(
+            obs1, obs2
+        ), "Observations are expected to be slightly different (ball position/velocity)"
+        assert data_equivalence(rewards1, rewards2), "Incorrect values for rewards"
+        assert data_equivalence(terminations1, terminations2), "Incorrect terminations."
+        assert data_equivalence(truncations1, truncations2), "Incorrect truncations"
+        assert data_equivalence(infos1, infos2), "Incorrect infos"
+    env1.close()
+    env2.close()
+
+
+@pytest.mark.skip(
+    reason="TypeError: __init__() missing 1 required positional argument: 'env'"
+)
+@pytest.mark.parametrize("walker_type", WALKER_TYPES)
+def test_pickle(walker_type):
+    """Tests the seeding of the openspiel conversion wrapper."""
+    env1 = dm_soccer.load(
+        team_size=2,
+        time_limit=10.0,
+        disable_walker_contacts=False,
+        enable_field_box=True,
+        terminate_on_goal=False,
+        walker_type=walker_type,
+    )
+    env1 = DmControlMultiAgentCompatibilityV0(env1, render_mode=None)
+    env2 = pickle.loads(pickle.dumps(env1))
+
+    env1.reset(seed=42)
+    env2.reset(seed=42)
+
+    for agent in env1.possible_agents:
+        env1.action_space(agent).seed(42)
+        env2.action_space(agent).seed(42)
+
+    while env1.agents:
+        actions1 = {agent: env1.action_space(agent).sample() for agent in env1.agents}
+        actions2 = {agent: env2.action_space(agent).sample() for agent in env2.agents}
+
+        assert data_equivalence(actions1, actions2), "Incorrect action seeding"
+
+        obs1, rewards1, terminations1, truncations1, infos1 = env1.step(actions1)
+        obs2, rewards2, terminations2, truncations2, infos2 = env2.step(actions2)
+
+        assert data_equivalence(obs1, obs2), "Incorrect observations"
+        assert data_equivalence(rewards1, rewards2), "Incorrect values for rewards"
+        assert data_equivalence(terminations1, terminations2), "Incorrect terminations."
+        assert data_equivalence(truncations1, truncations2), "Incorrect truncations"
+        assert data_equivalence(infos1, infos2), "Incorrect infos"
+    env1.close()
+    env2.close()