From 42b700b708f41befe95786784fa18f026e09f3a2 Mon Sep 17 00:00:00 2001
From: Bidipta Sarkar <bidiptas13@gmail.com>
Date: Sun, 5 Nov 2023 21:59:15 -0800
Subject: [PATCH] Modify ADAP for sb3_2 compatibility

---
 .../pantheonrl.algos.adap.adap_learn.ADAP.rst |   3 +-
 ...ntheonrl.algos.adap.policies.MultModel.rst |   4 +-
 ...ntheonrl.algos.adap.util.get_L2_sphere.rst |   4 +-
 .../pantheonrl.algos.adap.util.rst            |   4 +-
 .../pantheonrl.algos.bc.BCShell.rst           |  10 +-
 ...pantheonrl.algos.bc.ConstantLRSchedule.rst |   3 +-
 ...os.bc.EpochOrBatchIteratorWithProgress.rst |   3 +-
 ...l.algos.modular.policies.ModularPolicy.rst |   3 +-
 ...nrl.common.multiagentenv.MultiAgentEnv.rst |   3 +-
 ...l.common.multiagentenv.SimultaneousEnv.rst |   3 +-
 ...onrl.common.multiagentenv.TurnBasedEnv.rst |   3 +-
 ...common.wrappers.SimultaneousFrameStack.rst |   3 +-
 ...l.common.wrappers.SimultaneousRecorder.rst |   3 +-
 ...rl.common.wrappers.TurnBasedFrameStack.rst |   3 +-
 ...onrl.common.wrappers.TurnBasedRecorder.rst |   3 +-
 ...envs.blockworldgym.blockworld.BlockEnv.rst |   3 +-
 ...rldgym.simpleblockworld.SimpleBlockEnv.rst |   3 +-
 .../pantheonrl.envs.liargym.liar.LiarEnv.rst  |   3 +-
 ...l.envs.pettingzoo.PettingZooAECWrapper.rst |   3 +-
 .../pantheonrl.envs.rpsgym.rps.RPSEnv.rst     |   3 +-
 ...pantheonrl.algos.adap.adap_learn.ADAP.html | 177 ++----
 .../pantheonrl.algos.adap.adap_learn.html     |   3 +-
 ...pantheonrl.algos.adap.agent.AdapAgent.html |  17 +-
 .../pantheonrl.algos.adap.agent.html          |   1 +
 .../_autosummary/pantheonrl.algos.adap.html   |  12 +-
 ...heonrl.algos.adap.policies.AdapPolicy.html |  53 +-
 ...rl.algos.adap.policies.AdapPolicyMult.html |  49 +-
 ...theonrl.algos.adap.policies.MultModel.html | 107 +++-
 .../pantheonrl.algos.adap.policies.html       |   7 +-
 ...theonrl.algos.adap.util.get_L2_sphere.html |  46 +-
 ...eonrl.algos.adap.util.get_categorical.html |   9 +-
 ...l.algos.adap.util.get_context_kl_loss.html |   3 +-
 ...rl.algos.adap.util.get_natural_number.html |   2 +-
 ...l.algos.adap.util.get_positive_square.html |   5 +-
 ...eonrl.algos.adap.util.get_unit_square.html |   5 +-
 .../pantheonrl.algos.adap.util.html           |  21 +-
 .../_autosummary/pantheonrl.algos.bc.BC.html  |   8 +-
 .../pantheonrl.algos.bc.BCShell.html          |  32 ++
 ...antheonrl.algos.bc.ConstantLRSchedule.html |   9 +
 ...s.bc.EpochOrBatchIteratorWithProgress.html |   9 +
 .../_autosummary/pantheonrl.algos.bc.html     |   7 +-
 .../html/_autosummary/pantheonrl.algos.html   |   7 +-
 .../pantheonrl.algos.modular.html             |   8 +-
 ....algos.modular.learn.ModularAlgorithm.html |  22 +-
 .../pantheonrl.algos.modular.learn.html       |   1 +
 ....algos.modular.policies.ModularPolicy.html | 172 ++++--
 .../pantheonrl.algos.modular.policies.html    |   3 +-
 .../html/_autosummary/pantheonrl.common.html  |   3 +-
 ...rl.common.multiagentenv.MultiAgentEnv.html |  32 +-
 ....common.multiagentenv.SimultaneousEnv.html |  32 +-
 ...nrl.common.multiagentenv.TurnBasedEnv.html |  32 +-
 ...ommon.wrappers.SimultaneousFrameStack.html |  32 +-
 ....common.wrappers.SimultaneousRecorder.html |  34 +-
 ...l.common.wrappers.TurnBasedFrameStack.html |  32 +-
 ...nrl.common.wrappers.TurnBasedRecorder.html |  34 +-
 ...nvs.blockworldgym.blockworld.BlockEnv.html |  32 +-
 .../pantheonrl.envs.blockworldgym.html        |   4 +-
 ...ldgym.simpleblockworld.SimpleBlockEnv.html |  32 +-
 .../html/_autosummary/pantheonrl.envs.html    |   6 +-
 .../_autosummary/pantheonrl.envs.liargym.html |   3 +-
 .../pantheonrl.envs.liargym.liar.LiarEnv.html |  32 +-
 ....envs.pettingzoo.PettingZooAECWrapper.html |  32 +-
 .../_autosummary/pantheonrl.envs.rpsgym.html  |   3 +-
 .../pantheonrl.envs.rpsgym.rps.RPSEnv.html    |  32 +-
 .../build/html/_autosummary/pantheonrl.html   |  19 +-
 .../pantheonrl/algos/adap/adap_learn.html     | 539 +++++++++---------
 .../_modules/pantheonrl/algos/adap/agent.html | 146 ++---
 .../pantheonrl/algos/adap/policies.html       | 355 +++++++-----
 .../_modules/pantheonrl/algos/adap/util.html  | 124 ++--
 .../html/_modules/pantheonrl/algos/bc.html    | 207 ++++---
 .../pantheonrl/algos/modular/learn.html       | 343 +++++++----
 .../pantheonrl/algos/modular/policies.html    | 497 ++++++++++------
 .../pantheonrl/common/multiagentenv.html      |  10 +-
 .../_modules/pantheonrl/common/trajsaver.html |   2 +-
 ...theonrl.algos.adap.adap_learn.ADAP.rst.txt |   3 +-
 ...onrl.algos.adap.policies.MultModel.rst.txt |   4 +-
 ...onrl.algos.adap.util.get_L2_sphere.rst.txt |   4 +-
 .../pantheonrl.algos.adap.util.rst.txt        |   4 +-
 .../pantheonrl.algos.bc.BCShell.rst.txt       |  10 +-
 ...heonrl.algos.bc.ConstantLRSchedule.rst.txt |   3 +-
 ...c.EpochOrBatchIteratorWithProgress.rst.txt |   3 +-
 ...gos.modular.policies.ModularPolicy.rst.txt |   3 +-
 ...common.multiagentenv.MultiAgentEnv.rst.txt |   3 +-
 ...mmon.multiagentenv.SimultaneousEnv.rst.txt |   3 +-
 ....common.multiagentenv.TurnBasedEnv.rst.txt |   3 +-
 ...on.wrappers.SimultaneousFrameStack.rst.txt |   3 +-
 ...mmon.wrappers.SimultaneousRecorder.rst.txt |   3 +-
 ...ommon.wrappers.TurnBasedFrameStack.rst.txt |   3 +-
 ....common.wrappers.TurnBasedRecorder.rst.txt |   3 +-
 ....blockworldgym.blockworld.BlockEnv.rst.txt |   3 +-
 ...ym.simpleblockworld.SimpleBlockEnv.rst.txt |   3 +-
 ...ntheonrl.envs.liargym.liar.LiarEnv.rst.txt |   3 +-
 ...vs.pettingzoo.PettingZooAECWrapper.rst.txt |   3 +-
 .../pantheonrl.envs.rpsgym.rps.RPSEnv.rst.txt |   3 +-
 docs_build/build/html/genindex.html           |  80 ++-
 docs_build/build/html/objects.inv             | Bin 7666 -> 7877 bytes
 docs_build/build/html/searchindex.js          |   2 +-
 src/pantheonrl/algos/__init__.py              |   3 +
 src/pantheonrl/algos/adap/__init__.py         |   5 +
 src/pantheonrl/algos/adap/adap_learn.py       | 400 ++++++-------
 src/pantheonrl/algos/adap/agent.py            | 178 +-----
 src/pantheonrl/algos/adap/policies.py         | 262 +++++----
 src/pantheonrl/algos/adap/util.py             |  16 +-
 src/pantheonrl/algos/bc.py                    |   3 +-
 src/pantheonrl/algos/modular/__init__.py      |   5 +
 src/pantheonrl/common/__init__.py             |   3 +
 src/pantheonrl/envs/blockworldgym/__init__.py |   5 +
 src/pantheonrl/envs/liargym/__init__.py       |   3 +
 src/pantheonrl/envs/rpsgym/__init__.py        |   3 +
 tests/README.org                              |  22 +
 tests/test_adap.py                            |  30 +-
 111 files changed, 2613 insertions(+), 1991 deletions(-)

diff --git a/docs_build/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.rst b/docs_build/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.rst
index 85d422e..1296b39 100644
--- a/docs_build/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.rst
+++ b/docs_build/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.rst
@@ -1,4 +1,4 @@
-pantheonrl.algos.adap.adap\_learn.ADAP
+﻿pantheonrl.algos.adap.adap\_learn.ADAP
 ======================================
 
 .. currentmodule:: pantheonrl.algos.adap.adap_learn
@@ -40,7 +40,6 @@ pantheonrl.algos.adap.adap\_learn.ADAP
    
       ~ADAP.logger
       ~ADAP.policy_aliases
-      ~ADAP.full_obs_shape
       ~ADAP.rollout_buffer
       ~ADAP.policy
       ~ADAP.observation_space
diff --git a/docs_build/_autosummary/pantheonrl.algos.adap.policies.MultModel.rst b/docs_build/_autosummary/pantheonrl.algos.adap.policies.MultModel.rst
index 1fa8ce4..f619fe7 100644
--- a/docs_build/_autosummary/pantheonrl.algos.adap.policies.MultModel.rst
+++ b/docs_build/_autosummary/pantheonrl.algos.adap.policies.MultModel.rst
@@ -1,4 +1,4 @@
-pantheonrl.algos.adap.policies.MultModel
+﻿pantheonrl.algos.adap.policies.MultModel
 ========================================
 
 .. currentmodule:: pantheonrl.algos.adap.policies
@@ -32,8 +32,6 @@ pantheonrl.algos.adap.policies.MultModel
       ~MultModel.forward_critic
       ~MultModel.get_buffer
       ~MultModel.get_extra_state
-      ~MultModel.get_input_size_excluding_ctx
-      ~MultModel.get_input_size_inluding_ctx
       ~MultModel.get_parameter
       ~MultModel.get_submodule
       ~MultModel.half
diff --git a/docs_build/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.rst b/docs_build/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.rst
index db95f21..778f650 100644
--- a/docs_build/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.rst
+++ b/docs_build/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.rst
@@ -1,6 +1,6 @@
-pantheonrl.algos.adap.util.get\_L2\_sphere
+pantheonrl.algos.adap.util.get\_l2\_sphere
 ==========================================
 
 .. currentmodule:: pantheonrl.algos.adap.util
 
-.. autofunction:: get_L2_sphere
\ No newline at end of file
+.. autofunction:: get_l2_sphere
\ No newline at end of file
diff --git a/docs_build/_autosummary/pantheonrl.algos.adap.util.rst b/docs_build/_autosummary/pantheonrl.algos.adap.util.rst
index 7f1ccf1..2d6ad59 100644
--- a/docs_build/_autosummary/pantheonrl.algos.adap.util.rst
+++ b/docs_build/_autosummary/pantheonrl.algos.adap.util.rst
@@ -1,4 +1,4 @@
-pantheonrl.algos.adap.util
+﻿pantheonrl.algos.adap.util
 ==========================
 
 
@@ -19,9 +19,9 @@ pantheonrl.algos.adap.util
       :toctree:
       :nosignatures:
    
-      get_L2_sphere
       get_categorical
       get_context_kl_loss
+      get_l2_sphere
       get_natural_number
       get_positive_square
       get_unit_square
diff --git a/docs_build/_autosummary/pantheonrl.algos.bc.BCShell.rst b/docs_build/_autosummary/pantheonrl.algos.bc.BCShell.rst
index 440e2e0..5af1b7c 100644
--- a/docs_build/_autosummary/pantheonrl.algos.bc.BCShell.rst
+++ b/docs_build/_autosummary/pantheonrl.algos.bc.BCShell.rst
@@ -1,4 +1,4 @@
-pantheonrl.algos.bc.BCShell
+﻿pantheonrl.algos.bc.BCShell
 ===========================
 
 .. currentmodule:: pantheonrl.algos.bc
@@ -16,9 +16,17 @@ pantheonrl.algos.bc.BCShell
    .. autosummary::
       :nosignatures:
    
+      ~BCShell.get_policy
+      ~BCShell.set_policy
    
    
 
    
    
+   .. rubric:: Attributes
+
+   .. autosummary::
+   
+      ~BCShell.policy
+   
    
\ No newline at end of file
diff --git a/docs_build/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.rst b/docs_build/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.rst
index 7a3363e..cfe941b 100644
--- a/docs_build/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.rst
+++ b/docs_build/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.rst
@@ -1,4 +1,4 @@
-pantheonrl.algos.bc.ConstantLRSchedule
+﻿pantheonrl.algos.bc.ConstantLRSchedule
 ======================================
 
 .. currentmodule:: pantheonrl.algos.bc
@@ -16,6 +16,7 @@ pantheonrl.algos.bc.ConstantLRSchedule
    .. autosummary::
       :nosignatures:
    
+      ~ConstantLRSchedule.set_lr
    
    
 
diff --git a/docs_build/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.rst b/docs_build/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.rst
index 771fb84..31294a3 100644
--- a/docs_build/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.rst
+++ b/docs_build/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.rst
@@ -1,4 +1,4 @@
-pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress
+﻿pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress
 ====================================================
 
 .. currentmodule:: pantheonrl.algos.bc
@@ -16,6 +16,7 @@ pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress
    .. autosummary::
       :nosignatures:
    
+      ~EpochOrBatchIteratorWithProgress.set_data_loader
    
    
 
diff --git a/docs_build/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.rst b/docs_build/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.rst
index a923d24..265a0fb 100644
--- a/docs_build/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.rst
+++ b/docs_build/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.rst
@@ -1,4 +1,4 @@
-pantheonrl.algos.modular.policies.ModularPolicy
+﻿pantheonrl.algos.modular.policies.ModularPolicy
 ===============================================
 
 .. currentmodule:: pantheonrl.algos.modular.policies
@@ -67,7 +67,6 @@ pantheonrl.algos.modular.policies.ModularPolicy
       ~ModularPolicy.register_parameter
       ~ModularPolicy.register_state_dict_pre_hook
       ~ModularPolicy.requires_grad_
-      ~ModularPolicy.reset_noise
       ~ModularPolicy.save
       ~ModularPolicy.scale_action
       ~ModularPolicy.set_extra_state
diff --git a/docs_build/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.rst b/docs_build/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.rst
index 98e1e45..8a5fb62 100644
--- a/docs_build/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.rst
+++ b/docs_build/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.rst
@@ -1,4 +1,4 @@
-pantheonrl.common.multiagentenv.MultiAgentEnv
+﻿pantheonrl.common.multiagentenv.MultiAgentEnv
 =============================================
 
 .. currentmodule:: pantheonrl.common.multiagentenv
@@ -25,6 +25,7 @@ pantheonrl.common.multiagentenv.MultiAgentEnv
       ~MultiAgentEnv.n_reset
       ~MultiAgentEnv.n_step
       ~MultiAgentEnv.render
+      ~MultiAgentEnv.resample_null
       ~MultiAgentEnv.resample_random
       ~MultiAgentEnv.resample_round_robin
       ~MultiAgentEnv.reset
diff --git a/docs_build/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.rst b/docs_build/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.rst
index 4b4718a..d3edfc2 100644
--- a/docs_build/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.rst
+++ b/docs_build/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.rst
@@ -1,4 +1,4 @@
-pantheonrl.common.multiagentenv.SimultaneousEnv
+﻿pantheonrl.common.multiagentenv.SimultaneousEnv
 ===============================================
 
 .. currentmodule:: pantheonrl.common.multiagentenv
@@ -27,6 +27,7 @@ pantheonrl.common.multiagentenv.SimultaneousEnv
       ~SimultaneousEnv.n_reset
       ~SimultaneousEnv.n_step
       ~SimultaneousEnv.render
+      ~SimultaneousEnv.resample_null
       ~SimultaneousEnv.resample_random
       ~SimultaneousEnv.resample_round_robin
       ~SimultaneousEnv.reset
diff --git a/docs_build/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.rst b/docs_build/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.rst
index 73d80b8..154abad 100644
--- a/docs_build/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.rst
+++ b/docs_build/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.rst
@@ -1,4 +1,4 @@
-pantheonrl.common.multiagentenv.TurnBasedEnv
+﻿pantheonrl.common.multiagentenv.TurnBasedEnv
 ============================================
 
 .. currentmodule:: pantheonrl.common.multiagentenv
@@ -28,6 +28,7 @@ pantheonrl.common.multiagentenv.TurnBasedEnv
       ~TurnBasedEnv.n_reset
       ~TurnBasedEnv.n_step
       ~TurnBasedEnv.render
+      ~TurnBasedEnv.resample_null
       ~TurnBasedEnv.resample_random
       ~TurnBasedEnv.resample_round_robin
       ~TurnBasedEnv.reset
diff --git a/docs_build/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.rst b/docs_build/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.rst
index 675e405..a7a1827 100644
--- a/docs_build/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.rst
+++ b/docs_build/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.rst
@@ -1,4 +1,4 @@
-pantheonrl.common.wrappers.SimultaneousFrameStack
+﻿pantheonrl.common.wrappers.SimultaneousFrameStack
 =================================================
 
 .. currentmodule:: pantheonrl.common.wrappers
@@ -27,6 +27,7 @@ pantheonrl.common.wrappers.SimultaneousFrameStack
       ~SimultaneousFrameStack.n_reset
       ~SimultaneousFrameStack.n_step
       ~SimultaneousFrameStack.render
+      ~SimultaneousFrameStack.resample_null
       ~SimultaneousFrameStack.resample_random
       ~SimultaneousFrameStack.resample_round_robin
       ~SimultaneousFrameStack.reset
diff --git a/docs_build/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.rst b/docs_build/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.rst
index bcf183a..97a6ba4 100644
--- a/docs_build/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.rst
+++ b/docs_build/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.rst
@@ -1,4 +1,4 @@
-pantheonrl.common.wrappers.SimultaneousRecorder
+﻿pantheonrl.common.wrappers.SimultaneousRecorder
 ===============================================
 
 .. currentmodule:: pantheonrl.common.wrappers
@@ -28,6 +28,7 @@ pantheonrl.common.wrappers.SimultaneousRecorder
       ~SimultaneousRecorder.n_reset
       ~SimultaneousRecorder.n_step
       ~SimultaneousRecorder.render
+      ~SimultaneousRecorder.resample_null
       ~SimultaneousRecorder.resample_random
       ~SimultaneousRecorder.resample_round_robin
       ~SimultaneousRecorder.reset
diff --git a/docs_build/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.rst b/docs_build/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.rst
index de3281d..872318a 100644
--- a/docs_build/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.rst
+++ b/docs_build/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.rst
@@ -1,4 +1,4 @@
-pantheonrl.common.wrappers.TurnBasedFrameStack
+﻿pantheonrl.common.wrappers.TurnBasedFrameStack
 ==============================================
 
 .. currentmodule:: pantheonrl.common.wrappers
@@ -28,6 +28,7 @@ pantheonrl.common.wrappers.TurnBasedFrameStack
       ~TurnBasedFrameStack.n_reset
       ~TurnBasedFrameStack.n_step
       ~TurnBasedFrameStack.render
+      ~TurnBasedFrameStack.resample_null
       ~TurnBasedFrameStack.resample_random
       ~TurnBasedFrameStack.resample_round_robin
       ~TurnBasedFrameStack.reset
diff --git a/docs_build/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.rst b/docs_build/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.rst
index 04ce8b1..2e45f86 100644
--- a/docs_build/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.rst
+++ b/docs_build/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.rst
@@ -1,4 +1,4 @@
-pantheonrl.common.wrappers.TurnBasedRecorder
+﻿pantheonrl.common.wrappers.TurnBasedRecorder
 ============================================
 
 .. currentmodule:: pantheonrl.common.wrappers
@@ -29,6 +29,7 @@ pantheonrl.common.wrappers.TurnBasedRecorder
       ~TurnBasedRecorder.n_reset
       ~TurnBasedRecorder.n_step
       ~TurnBasedRecorder.render
+      ~TurnBasedRecorder.resample_null
       ~TurnBasedRecorder.resample_random
       ~TurnBasedRecorder.resample_round_robin
       ~TurnBasedRecorder.reset
diff --git a/docs_build/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.rst b/docs_build/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.rst
index b6adb9f..db99c20 100644
--- a/docs_build/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.rst
+++ b/docs_build/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.rst
@@ -1,4 +1,4 @@
-pantheonrl.envs.blockworldgym.blockworld.BlockEnv
+﻿pantheonrl.envs.blockworldgym.blockworld.BlockEnv
 =================================================
 
 .. currentmodule:: pantheonrl.envs.blockworldgym.blockworld
@@ -28,6 +28,7 @@ pantheonrl.envs.blockworldgym.blockworld.BlockEnv
       ~BlockEnv.n_reset
       ~BlockEnv.n_step
       ~BlockEnv.render
+      ~BlockEnv.resample_null
       ~BlockEnv.resample_random
       ~BlockEnv.resample_round_robin
       ~BlockEnv.reset
diff --git a/docs_build/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.rst b/docs_build/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.rst
index 9792f9e..36e107e 100644
--- a/docs_build/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.rst
+++ b/docs_build/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.rst
@@ -1,4 +1,4 @@
-pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv
+﻿pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv
 =============================================================
 
 .. currentmodule:: pantheonrl.envs.blockworldgym.simpleblockworld
@@ -28,6 +28,7 @@ pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv
       ~SimpleBlockEnv.n_reset
       ~SimpleBlockEnv.n_step
       ~SimpleBlockEnv.render
+      ~SimpleBlockEnv.resample_null
       ~SimpleBlockEnv.resample_random
       ~SimpleBlockEnv.resample_round_robin
       ~SimpleBlockEnv.reset
diff --git a/docs_build/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.rst b/docs_build/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.rst
index acea78f..55816de 100644
--- a/docs_build/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.rst
+++ b/docs_build/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.rst
@@ -1,4 +1,4 @@
-pantheonrl.envs.liargym.liar.LiarEnv
+﻿pantheonrl.envs.liargym.liar.LiarEnv
 ====================================
 
 .. currentmodule:: pantheonrl.envs.liargym.liar
@@ -28,6 +28,7 @@ pantheonrl.envs.liargym.liar.LiarEnv
       ~LiarEnv.n_reset
       ~LiarEnv.n_step
       ~LiarEnv.render
+      ~LiarEnv.resample_null
       ~LiarEnv.resample_random
       ~LiarEnv.resample_round_robin
       ~LiarEnv.reset
diff --git a/docs_build/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.rst b/docs_build/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.rst
index a3a5f3a..51331b7 100644
--- a/docs_build/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.rst
+++ b/docs_build/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.rst
@@ -1,4 +1,4 @@
-pantheonrl.envs.pettingzoo.PettingZooAECWrapper
+﻿pantheonrl.envs.pettingzoo.PettingZooAECWrapper
 ===============================================
 
 .. currentmodule:: pantheonrl.envs.pettingzoo
@@ -25,6 +25,7 @@ pantheonrl.envs.pettingzoo.PettingZooAECWrapper
       ~PettingZooAECWrapper.n_reset
       ~PettingZooAECWrapper.n_step
       ~PettingZooAECWrapper.render
+      ~PettingZooAECWrapper.resample_null
       ~PettingZooAECWrapper.resample_random
       ~PettingZooAECWrapper.resample_round_robin
       ~PettingZooAECWrapper.reset
diff --git a/docs_build/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.rst b/docs_build/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.rst
index 50d2996..cd0b1bc 100644
--- a/docs_build/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.rst
+++ b/docs_build/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.rst
@@ -1,4 +1,4 @@
-pantheonrl.envs.rpsgym.rps.RPSEnv
+﻿pantheonrl.envs.rpsgym.rps.RPSEnv
 =================================
 
 .. currentmodule:: pantheonrl.envs.rpsgym.rps
@@ -27,6 +27,7 @@ pantheonrl.envs.rpsgym.rps.RPSEnv
       ~RPSEnv.n_reset
       ~RPSEnv.n_step
       ~RPSEnv.render
+      ~RPSEnv.resample_null
       ~RPSEnv.resample_random
       ~RPSEnv.resample_round_robin
       ~RPSEnv.reset
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html
index cf933a4..2a48cb4 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html
@@ -99,84 +99,14 @@
 <h1>pantheonrl.algos.adap.adap_learn.ADAP<a class="headerlink" href="#pantheonrl-algos-adap-adap-learn-adap" title="Link to this heading"></a></h1>
 <dl class="py class">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.adap_learn.ADAP">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">ADAP</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">policy</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">env</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">learning_rate</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0003</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_steps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">2048</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">64</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_epochs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gamma</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.99</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gae_lambda</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.95</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">clip_range</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">clip_range_vf</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ent_coef</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vf_coef</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_grad_norm</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_sde</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sde_sample_freq</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">-1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_kl</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tensorboard_log</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">create_eval_env</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">policy_kwargs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">verbose</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'auto'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">_init_setup_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context_loss_coeff</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_context_samples</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context_sampler</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'l2'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_state_samples</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">32</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/adap_learn.html#ADAP"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.adap_learn.ADAP" title="Link to this definition"></a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">ADAP</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">policy</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">env</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">learning_rate</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0003</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_steps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">2048</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">64</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_epochs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gamma</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.99</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gae_lambda</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.95</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">clip_range</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">clip_range_vf</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">normalize_advantage</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ent_coef</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vf_coef</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_grad_norm</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_sde</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sde_sample_freq</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">-1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_kl</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stats_window_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">100</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tensorboard_log</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">policy_kwargs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">verbose</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'auto'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">_init_setup_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context_loss_coeff</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_context_samples</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context_sampler</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'l2'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_state_samples</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">32</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/adap_learn.html#ADAP"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.adap_learn.ADAP" title="Link to this definition"></a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">OnPolicyAlgorithm</span></code></p>
-<p>Borrows from Proximal Policy Optimization algorithm (PPO) (clip version)
-Paper: <a class="reference external" href="https://arxiv.org/abs/1707.06347">https://arxiv.org/abs/1707.06347</a>
-Code: This implementation borrows code from OpenAI Spinning Up
-(<a class="reference external" href="https://github.com/openai/spinningup/">https://github.com/openai/spinningup/</a>)
-<a class="reference external" href="https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail">https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail</a> and
-and Stable Baselines (PPO2 from <a class="reference external" href="https://github.com/hill-a/stable-baselines">https://github.com/hill-a/stable-baselines</a>)
-Introduction to PPO:
-<a class="reference external" href="https://spinningup.openai.com/en/latest/algorithms/ppo.html">https://spinningup.openai.com/en/latest/algorithms/ppo.html</a>
-:param policy: The policy model to use (MlpPolicy, CnnPolicy, …)
-:param env: The environment to learn from</p>
-<blockquote>
-<div><p>(if registered in Gym, can be str)</p>
-</div></blockquote>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>learning_rate</strong> (<em>float</em><em> | </em><em>Callable</em><em>[</em><em>[</em><em>float</em><em>]</em><em>, </em><em>float</em><em>]</em>) – The learning rate, it can be a function
-of the current progress remaining (from 1 to 0)</p></li>
-<li><p><strong>n_steps</strong> (<em>int</em>) – The number of steps to run for each environment per update
-(i.e. rollout buffer size is n_steps * n_envs where n_envs is number of
-environment copies running in parallel)
-NOTE: n_steps * n_envs must be greater than 1 (because of the advantage
-normalization) See <a class="reference external" href="https://github.com/pytorch/pytorch/issues/29372">https://github.com/pytorch/pytorch/issues/29372</a></p></li>
-<li><p><strong>batch_size</strong> (<em>int</em>) – Minibatch size</p></li>
-<li><p><strong>n_epochs</strong> (<em>int</em>) – Number of epoch when optimizing the surrogate loss</p></li>
-<li><p><strong>gamma</strong> (<em>float</em>) – Discount factor</p></li>
-<li><p><strong>gae_lambda</strong> (<em>float</em>) – Factor for trade-off of bias vs variance for Generalized
-Advantage Estimator</p></li>
-<li><p><strong>clip_range</strong> (<em>float</em><em> | </em><em>Callable</em><em>[</em><em>[</em><em>float</em><em>]</em><em>, </em><em>float</em><em>]</em>) – Clipping parameter, it can be a function of the current
-progress remaining (from 1 to 0).</p></li>
-<li><p><strong>clip_range_vf</strong> (<em>None</em><em> | </em><em>float</em><em> | </em><em>Callable</em><em>[</em><em>[</em><em>float</em><em>]</em><em>, </em><em>float</em><em>]</em>) – Clipping parameter for the value function,
-it can be a function of the current progress remaining (from 1 to 0).
-This is a parameter specific to the OpenAI implementation. If None is
-passed (default), no clipping will be done on the value function.
-IMPORTANT: this clipping depends on the reward scaling.</p></li>
-<li><p><strong>ent_coef</strong> (<em>float</em>) – Entropy coefficient for the loss calculation</p></li>
-<li><p><strong>vf_coef</strong> (<em>float</em>) – Value function coefficient for the loss calculation</p></li>
-<li><p><strong>max_grad_norm</strong> (<em>float</em>) – The maximum value for the gradient clipping</p></li>
-<li><p><strong>use_sde</strong> (<em>bool</em>) – Whether to use generalized State Dependent Exploration
-(gSDE) instead of action noise exploration (default: False)</p></li>
-<li><p><strong>sde_sample_freq</strong> (<em>int</em>) – Sample a new noise matrix every n steps when using
-gSDE
-Default: -1 (only sample at the beginning of the rollout)</p></li>
-<li><p><strong>target_kl</strong> (<em>float</em><em> | </em><em>None</em>) – Limit the KL divergence between updates,
-because the clipping is not enough to prevent large update
-see issue #213
-(cf <a class="reference external" href="https://github.com/hill-a/stable-baselines/issues/213">https://github.com/hill-a/stable-baselines/issues/213</a>)
-By default, there is no limit on the kl div.</p></li>
-<li><p><strong>tensorboard_log</strong> (<em>str</em><em> | </em><em>None</em>) – the log location for tensorboard
-(if None, no logging)</p></li>
-<li><p><strong>create_eval_env</strong> (<em>bool</em>) – Whether to create a second environment that will be
-used for evaluating the agent periodically. (Only available when
-passing string for the environment)</p></li>
-<li><p><strong>policy_kwargs</strong> (<em>Dict</em><em>[</em><em>str</em><em>, </em><em>Any</em><em>] </em><em>| </em><em>None</em>) – additional arguments to be passed to the policy on
-creation</p></li>
-<li><p><strong>verbose</strong> (<em>int</em>) – the verbosity level: 0 no output, 1 info, 2 debug</p></li>
-<li><p><strong>seed</strong> (<em>int</em><em> | </em><em>None</em>) – Seed for the pseudo random generators</p></li>
-<li><p><strong>device</strong> (<em>device</em><em> | </em><em>str</em>) – Device (cpu, cuda, …) on which the code should be run.
-Setting it to auto, the code will be run on the GPU if possible.</p></li>
-<li><p><strong>_init_setup_model</strong> (<em>bool</em>) – Whether or not to build the network at the
-creation of the instance</p></li>
-<li><p><strong>policy</strong> (<em>ActorCriticPolicy</em>) – </p></li>
-<li><p><strong>env</strong> (<em>Env</em><em> | </em><em>VecEnv</em><em> | </em><em>str</em>) – </p></li>
-<li><p><strong>context_loss_coeff</strong> (<em>float</em>) – </p></li>
-<li><p><strong>context_size</strong> (<em>int</em>) – </p></li>
-<li><p><strong>num_context_samples</strong> (<em>int</em>) – </p></li>
-<li><p><strong>context_sampler</strong> (<em>str</em>) – </p></li>
-<li><p><strong>num_state_samples</strong> (<em>int</em>) – </p></li>
-</ul>
-</dd>
-</dl>
+<p>Borrows from Proximal Policy Optimization algorithm (PPO) (clip version)</p>
 <p class="rubric">Methods</p>
 <table class="autosummary longtable docutils align-default">
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.adap_learn.ADAP.collect_rollouts" title="pantheonrl.algos.adap.adap_learn.ADAP.collect_rollouts"><code class="xref py py-obj docutils literal notranslate"><span class="pre">collect_rollouts</span></code></a></p></td>
-<td><p>Nearly identical to OnPolicyAlgorithm's collect_rollouts, but it also resamples the context every episode.</p></td>
+<td><p>Collect rollouts using the current policy and fill a <cite>RolloutBuffer</cite>.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.adap_learn.ADAP.get_env" title="pantheonrl.algos.adap.adap_learn.ADAP.get_env"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_env</span></code></a></p></td>
 <td><p>Returns the current environment (can be None if not defined).</p></td>
@@ -200,7 +130,7 @@ <h1>pantheonrl.algos.adap.adap_learn.ADAP<a class="headerlink" href="#pantheonrl
 <td><p>Save all the attributes of the object and the model parameters in a zip-file.</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.adap_learn.ADAP.set_env" title="pantheonrl.algos.adap.adap_learn.ADAP.set_env"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_env</span></code></a></p></td>
-<td><p>Checks the validity of the environment, and if it is coherent, set it as the current environment.</p></td>
+<td><p>Set the env to use</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.adap_learn.ADAP.set_logger" title="pantheonrl.algos.adap.adap_learn.ADAP.set_logger"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_logger</span></code></a></p></td>
 <td><p>Setter for for logger object.</p></td>
@@ -225,51 +155,75 @@ <h1>pantheonrl.algos.adap.adap_learn.ADAP<a class="headerlink" href="#pantheonrl
 <tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">policy_aliases</span></code></p></td>
 <td><p></p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">full_obs_shape</span></code></p></td>
-<td><p></p></td>
-</tr>
-<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">rollout_buffer</span></code></p></td>
+<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">rollout_buffer</span></code></p></td>
 <td><p></p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">policy</span></code></p></td>
+<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">policy</span></code></p></td>
 <td><p></p></td>
 </tr>
-<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">observation_space</span></code></p></td>
+<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">observation_space</span></code></p></td>
 <td><p></p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">action_space</span></code></p></td>
+<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">action_space</span></code></p></td>
 <td><p></p></td>
 </tr>
-<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">n_envs</span></code></p></td>
+<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">n_envs</span></code></p></td>
 <td><p></p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">lr_schedule</span></code></p></td>
+<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">lr_schedule</span></code></p></td>
 <td><p></p></td>
 </tr>
 </tbody>
 </table>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>policy</strong> (<em>ActorCriticPolicy</em>) – </p></li>
+<li><p><strong>env</strong> (<em>Env</em><em> | </em><em>VecEnv</em><em> | </em><em>str</em>) – </p></li>
+<li><p><strong>learning_rate</strong> (<em>float</em><em> | </em><em>Callable</em><em>[</em><em>[</em><em>float</em><em>]</em><em>, </em><em>float</em><em>]</em>) – </p></li>
+<li><p><strong>n_steps</strong> (<em>int</em>) – </p></li>
+<li><p><strong>batch_size</strong> (<em>int</em>) – </p></li>
+<li><p><strong>n_epochs</strong> (<em>int</em>) – </p></li>
+<li><p><strong>gamma</strong> (<em>float</em>) – </p></li>
+<li><p><strong>gae_lambda</strong> (<em>float</em>) – </p></li>
+<li><p><strong>clip_range</strong> (<em>float</em><em> | </em><em>Callable</em><em>[</em><em>[</em><em>float</em><em>]</em><em>, </em><em>float</em><em>]</em>) – </p></li>
+<li><p><strong>clip_range_vf</strong> (<em>None</em><em> | </em><em>float</em><em> | </em><em>Callable</em><em>[</em><em>[</em><em>float</em><em>]</em><em>, </em><em>float</em><em>]</em>) – </p></li>
+<li><p><strong>normalize_advantage</strong> (<em>bool</em>) – </p></li>
+<li><p><strong>ent_coef</strong> (<em>float</em>) – </p></li>
+<li><p><strong>vf_coef</strong> (<em>float</em>) – </p></li>
+<li><p><strong>max_grad_norm</strong> (<em>float</em>) – </p></li>
+<li><p><strong>use_sde</strong> (<em>bool</em>) – </p></li>
+<li><p><strong>sde_sample_freq</strong> (<em>int</em>) – </p></li>
+<li><p><strong>target_kl</strong> (<em>float</em><em> | </em><em>None</em>) – </p></li>
+<li><p><strong>stats_window_size</strong> (<em>int</em>) – </p></li>
+<li><p><strong>tensorboard_log</strong> (<em>str</em><em> | </em><em>None</em>) – </p></li>
+<li><p><strong>policy_kwargs</strong> (<em>Dict</em><em>[</em><em>str</em><em>, </em><em>Any</em><em>] </em><em>| </em><em>None</em>) – </p></li>
+<li><p><strong>verbose</strong> (<em>int</em>) – </p></li>
+<li><p><strong>seed</strong> (<em>int</em><em> | </em><em>None</em>) – </p></li>
+<li><p><strong>device</strong> (<em>device</em><em> | </em><em>str</em>) – </p></li>
+<li><p><strong>_init_setup_model</strong> (<em>bool</em>) – </p></li>
+<li><p><strong>context_loss_coeff</strong> (<em>float</em>) – </p></li>
+<li><p><strong>context_size</strong> (<em>int</em>) – </p></li>
+<li><p><strong>num_context_samples</strong> (<em>int</em>) – </p></li>
+<li><p><strong>context_sampler</strong> (<em>str</em>) – </p></li>
+<li><p><strong>num_state_samples</strong> (<em>int</em>) – </p></li>
+</ul>
+</dd>
+</dl>
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.adap_learn.ADAP.collect_rollouts">
 <span class="sig-name descname"><span class="pre">collect_rollouts</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">env</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">callback</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rollout_buffer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_rollout_steps</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/adap_learn.html#ADAP.collect_rollouts"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.adap_learn.ADAP.collect_rollouts" title="Link to this definition"></a></dt>
-<dd><p>Nearly identical to OnPolicyAlgorithm’s collect_rollouts, but it also
-resamples the context every episode.</p>
-<p>Collect experiences using the current policy and fill a
-<code class="docutils literal notranslate"><span class="pre">RolloutBuffer</span></code>.
+<dd><p>Collect rollouts using the current policy and fill a <cite>RolloutBuffer</cite>.
 The term rollout here refers to the model-free notion and should not
-be used with the concept of rollout used in model-based RL or planning.
-:param env: The training environment
-:param callback: Callback that will be called at each step</p>
-<blockquote>
-<div><p>(and at the beginning and end of the rollout)</p>
-</div></blockquote>
+be used with the concept of rollout used in model-based RL or planning.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
+<li><p><strong>env</strong> (<em>VecEnv</em>) – The training environment</p></li>
+<li><p><strong>callback</strong> (<em>BaseCallback</em>) – Callback that will be called at each step
+(and at the beginning and end of the rollout)</p></li>
 <li><p><strong>rollout_buffer</strong> (<em>RolloutBuffer</em>) – Buffer to fill with rollouts</p></li>
-<li><p><strong>n_steps</strong> – Number of experiences to collect per environment</p></li>
-<li><p><strong>env</strong> (<em>VecEnv</em>) – </p></li>
-<li><p><strong>callback</strong> (<em>BaseCallback</em>) – </p></li>
-<li><p><strong>n_rollout_steps</strong> (<em>int</em>) – </p></li>
+<li><p><strong>n_rollout_steps</strong> (<em>int</em>) – Number of experiences to collect per env</p></li>
 </ul>
 </dd>
 <dt class="field-even">Returns<span class="colon">:</span></dt>
@@ -328,7 +282,7 @@ <h1>pantheonrl.algos.adap.adap_learn.ADAP<a class="headerlink" href="#pantheonrl
 
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.adap_learn.ADAP.learn">
-<span class="sig-name descname"><span class="pre">learn</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">total_timesteps</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">callback</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_interval</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eval_env</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eval_freq</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">-1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_eval_episodes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tb_log_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'ADAP'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eval_log_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reset_num_timesteps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/adap_learn.html#ADAP.learn"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.adap_learn.ADAP.learn" title="Link to this definition"></a></dt>
+<span class="sig-name descname"><span class="pre">learn</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">total_timesteps</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">callback</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_interval</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tb_log_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'ADAP'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reset_num_timesteps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">progress_bar</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/adap_learn.html#ADAP.learn"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.adap_learn.ADAP.learn" title="Link to this definition"></a></dt>
 <dd><p>Return a trained model.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
@@ -338,19 +292,12 @@ <h1>pantheonrl.algos.adap.adap_learn.ADAP<a class="headerlink" href="#pantheonrl
 <li><p><strong>log_interval</strong> (<em>int</em>) – The number of episodes before logging.</p></li>
 <li><p><strong>tb_log_name</strong> (<em>str</em>) – the name of the run for TensorBoard logging</p></li>
 <li><p><strong>reset_num_timesteps</strong> (<em>bool</em>) – whether or not to reset the current timestep number (used in logging)</p></li>
-<li><p><strong>progress_bar</strong> – Display a progress bar using tqdm and rich.</p></li>
-<li><p><strong>eval_env</strong> (<em>Env</em><em> | </em><em>VecEnv</em><em> | </em><em>None</em>) – </p></li>
-<li><p><strong>eval_freq</strong> (<em>int</em>) – </p></li>
-<li><p><strong>n_eval_episodes</strong> (<em>int</em>) – </p></li>
-<li><p><strong>eval_log_path</strong> (<em>str</em><em> | </em><em>None</em>) – </p></li>
+<li><p><strong>progress_bar</strong> (<em>bool</em>) – Display a progress bar using tqdm and rich.</p></li>
 </ul>
 </dd>
 <dt class="field-even">Returns<span class="colon">:</span></dt>
 <dd class="field-even"><p>the trained model</p>
 </dd>
-<dt class="field-odd">Return type<span class="colon">:</span></dt>
-<dd class="field-odd"><p><a class="reference internal" href="#pantheonrl.algos.adap.adap_learn.ADAP" title="pantheonrl.algos.adap.adap_learn.ADAP"><em>ADAP</em></a></p>
-</dd>
 </dl>
 </dd></dl>
 
@@ -443,22 +390,8 @@ <h1>pantheonrl.algos.adap.adap_learn.ADAP<a class="headerlink" href="#pantheonrl
 
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.adap_learn.ADAP.set_env">
-<span class="sig-name descname"><span class="pre">set_env</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">env</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/adap_learn.html#ADAP.set_env"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.adap_learn.ADAP.set_env" title="Link to this definition"></a></dt>
-<dd><p>Checks the validity of the environment, and if it is coherent, set it as the current environment.
-Furthermore wrap any non vectorized env into a vectorized
-checked parameters:
-- observation_space
-- action_space</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>env</strong> – The environment for learning a policy</p></li>
-<li><p><strong>force_reset</strong> – Force call to <code class="docutils literal notranslate"><span class="pre">reset()</span></code> before training
-to avoid unexpected behavior.
-See issue <a class="reference external" href="https://github.com/DLR-RM/stable-baselines3/issues/597">https://github.com/DLR-RM/stable-baselines3/issues/597</a></p></li>
-</ul>
-</dd>
-</dl>
+<span class="sig-name descname"><span class="pre">set_env</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">env</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_reset</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/adap_learn.html#ADAP.set_env"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.adap_learn.ADAP.set_env" title="Link to this definition"></a></dt>
+<dd><p>Set the env to use</p>
 </dd></dl>
 
 <dl class="py method">
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.adap_learn.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.adap_learn.html
index 10e83b3..1bec3ed 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.adap_learn.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.adap_learn.html
@@ -96,11 +96,12 @@
              
   <section id="module-pantheonrl.algos.adap.adap_learn">
 <span id="pantheonrl-algos-adap-adap-learn"></span><h1>pantheonrl.algos.adap.adap_learn<a class="headerlink" href="#module-pantheonrl.algos.adap.adap_learn" title="Link to this heading"></a></h1>
+<p>Modified implementation of PPO to support ADAP</p>
 <p class="rubric">Classes</p>
 <table class="autosummary longtable docutils align-default">
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.adap_learn.ADAP.html#pantheonrl.algos.adap.adap_learn.ADAP" title="pantheonrl.algos.adap.adap_learn.ADAP"><code class="xref py py-obj docutils literal notranslate"><span class="pre">ADAP</span></code></a></p></td>
-<td><p>Borrows from Proximal Policy Optimization algorithm (PPO) (clip version) Paper: <a class="reference external" href="https://arxiv.org/abs/1707.06347">https://arxiv.org/abs/1707.06347</a> Code: This implementation borrows code from OpenAI Spinning Up (<a class="reference external" href="https://github.com/openai/spinningup/">https://github.com/openai/spinningup/</a>) <a class="reference external" href="https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail">https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail</a> and and Stable Baselines (PPO2 from <a class="reference external" href="https://github.com/hill-a/stable-baselines">https://github.com/hill-a/stable-baselines</a>) Introduction to PPO: <a class="reference external" href="https://spinningup.openai.com/en/latest/algorithms/ppo.html">https://spinningup.openai.com/en/latest/algorithms/ppo.html</a> :param policy: The policy model to use (MlpPolicy, CnnPolicy, ...) :param env: The environment to learn from     (if registered in Gym, can be str) :param learning_rate: The learning rate, it can be a function     of the current progress remaining (from 1 to 0) :param n_steps: The number of steps to run for each environment per update     (i.e. rollout buffer size is n_steps * n_envs where n_envs is number of     environment copies running in parallel)     NOTE: n_steps * n_envs must be greater than 1 (because of the advantage     normalization) See <a class="reference external" href="https://github.com/pytorch/pytorch/issues/29372">https://github.com/pytorch/pytorch/issues/29372</a> :param batch_size: Minibatch size :param n_epochs: Number of epoch when optimizing the surrogate loss :param gamma: Discount factor :param gae_lambda: Factor for trade-off of bias vs variance for Generalized     Advantage Estimator :param clip_range: Clipping parameter, it can be a function of the current     progress remaining (from 1 to 0). :param clip_range_vf: Clipping parameter for the value function,     it can be a function of the current progress remaining (from 1 to 0). This is a parameter specific to the OpenAI implementation. If None is     passed (default), no clipping will be done on the value function. IMPORTANT: this clipping depends on the reward scaling. :param ent_coef: Entropy coefficient for the loss calculation :param vf_coef: Value function coefficient for the loss calculation :param max_grad_norm: The maximum value for the gradient clipping :param use_sde: Whether to use generalized State Dependent Exploration     (gSDE) instead of action noise exploration (default: False) :param sde_sample_freq: Sample a new noise matrix every n steps when using     gSDE     Default: -1 (only sample at the beginning of the rollout) :param target_kl: Limit the KL divergence between updates,     because the clipping is not enough to prevent large update     see issue #213     (cf <a class="reference external" href="https://github.com/hill-a/stable-baselines/issues/213">https://github.com/hill-a/stable-baselines/issues/213</a>)     By default, there is no limit on the kl div. :param tensorboard_log: the log location for tensorboard     (if None, no logging) :param create_eval_env: Whether to create a second environment that will be     used for evaluating the agent periodically. (Only available when     passing string for the environment) :param policy_kwargs: additional arguments to be passed to the policy on     creation :param verbose: the verbosity level: 0 no output, 1 info, 2 debug :param seed: Seed for the pseudo random generators :param device: Device (cpu, cuda, ...) on which the code should be run. Setting it to auto, the code will be run on the GPU if possible. :param _init_setup_model: Whether or not to build the network at the     creation of the instance.</p></td>
+<td><p>Borrows from Proximal Policy Optimization algorithm (PPO) (clip version)</p></td>
 </tr>
 </tbody>
 </table>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.agent.AdapAgent.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.agent.AdapAgent.html
index 2da9015..88444c6 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.agent.AdapAgent.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.agent.AdapAgent.html
@@ -99,7 +99,7 @@
 <h1>pantheonrl.algos.adap.agent.AdapAgent<a class="headerlink" href="#pantheonrl-algos-adap-agent-adapagent" title="Link to this heading"></a></h1>
 <dl class="py class">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.agent.AdapAgent">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">AdapAgent</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_interval</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tensorboard_log</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tb_log_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'AdapAgent'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">latent_syncer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/agent.html#AdapAgent"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.agent.AdapAgent" title="Link to this definition"></a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">AdapAgent</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_interval</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">working_timesteps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1000</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">callback</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tb_log_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'AdapAgent'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">latent_syncer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/agent.html#AdapAgent"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.agent.AdapAgent" title="Link to this definition"></a></dt>
 <dd><p>Bases: <a class="reference internal" href="pantheonrl.common.agents.OnPolicyAgent.html#pantheonrl.common.agents.OnPolicyAgent" title="pantheonrl.common.agents.OnPolicyAgent"><code class="xref py py-class docutils literal notranslate"><span class="pre">OnPolicyAgent</span></code></a></p>
 <p>Agent representing an ADAP learning algorithm.</p>
 <p>The <cite>get_action</cite> and <cite>update</cite> functions are based on the <cite>learn</cite> function
@@ -108,6 +108,10 @@ <h1>pantheonrl.algos.adap.agent.AdapAgent<a class="headerlink" href="#pantheonrl
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>model</strong> (<a class="reference internal" href="pantheonrl.algos.adap.adap_learn.ADAP.html#pantheonrl.algos.adap.adap_learn.ADAP" title="pantheonrl.algos.adap.adap_learn.ADAP"><em>ADAP</em></a>) – Model representing the agent’s learning algorithm</p></li>
+<li><p><strong>log_interval</strong> – Optional log interval for policy logging</p></li>
+<li><p><strong>working_timesteps</strong> – Estimate for number of timesteps to train for.</p></li>
+<li><p><strong>callback</strong> – Optional callback fed into the OnPolicyAlgorithm</p></li>
+<li><p><strong>tb_log_name</strong> – Name for tensorboard log</p></li>
 <li><p><strong>latent_syncer</strong> (<a class="reference internal" href="pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy" title="pantheonrl.algos.adap.policies.AdapPolicy"><em>AdapPolicy</em></a><em> | </em><em>None</em>) – </p></li>
 </ul>
 </dd>
@@ -128,16 +132,13 @@ <h1>pantheonrl.algos.adap.agent.AdapAgent<a class="headerlink" href="#pantheonrl
 </table>
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.agent.AdapAgent.get_action">
-<span class="sig-name descname"><span class="pre">get_action</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">record</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/agent.html#AdapAgent.get_action"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.agent.AdapAgent.get_action" title="Link to this definition"></a></dt>
+<span class="sig-name descname"><span class="pre">get_action</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/agent.html#AdapAgent.get_action"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.agent.AdapAgent.get_action" title="Link to this definition"></a></dt>
 <dd><p>Return an action given an observation.</p>
-<p>When <cite>record</cite> is True, the agent saves the last transition into its
-buffer. It also updates the model if the buffer is full.</p>
+<p>The agent saves the last transition into its buffer. It also updates
+the model if the buffer is full.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>obs</strong> (<a class="reference internal" href="pantheonrl.common.observation.Observation.html#pantheonrl.common.observation.Observation" title="pantheonrl.common.observation.Observation"><em>Observation</em></a>) – The observation to use</p></li>
-<li><p><strong>record</strong> (<em>bool</em>) – Whether to record the obs, action (True when training)</p></li>
-</ul>
+<dd class="field-odd"><p><strong>obs</strong> (<a class="reference internal" href="pantheonrl.common.observation.Observation.html#pantheonrl.common.observation.Observation" title="pantheonrl.common.observation.Observation"><em>Observation</em></a>) – The observation to use</p>
 </dd>
 <dt class="field-even">Returns<span class="colon">:</span></dt>
 <dd class="field-even"><p>The action to take</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.agent.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.agent.html
index 512fe2b..c162d83 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.agent.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.agent.html
@@ -96,6 +96,7 @@
              
   <section id="module-pantheonrl.algos.adap.agent">
 <span id="pantheonrl-algos-adap-agent"></span><h1>pantheonrl.algos.adap.agent<a class="headerlink" href="#module-pantheonrl.algos.adap.agent" title="Link to this heading"></a></h1>
+<p>Module defining the ADAP partner agent.</p>
 <p class="rubric">Classes</p>
 <table class="autosummary longtable docutils align-default">
 <tbody>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.html
index c0cdf73..beba36d 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.html
@@ -98,20 +98,22 @@ <h1>pantheonrl.algos.adap<a class="headerlink" href="#pantheonrl-algos-adap" tit
 <table class="autosummary longtable docutils align-default">
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.adap_learn.html#module-pantheonrl.algos.adap.adap_learn" title="pantheonrl.algos.adap.adap_learn"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.algos.adap.adap_learn</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Modified implementation of PPO to support ADAP</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.algos.adap.agent.html#module-pantheonrl.algos.adap.agent" title="pantheonrl.algos.adap.agent"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.algos.adap.agent</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Module defining the ADAP partner agent.</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.policies.html#module-pantheonrl.algos.adap.policies" title="pantheonrl.algos.adap.policies"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.algos.adap.policies</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Module defining the Policy for ADAP</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.algos.adap.util.html#module-pantheonrl.algos.adap.util" title="pantheonrl.algos.adap.util"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.algos.adap.util</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Collection of helper functions for ADAP</p></td>
 </tr>
 </tbody>
 </table>
-<span class="target" id="module-pantheonrl.algos.adap"></span></section>
+<p id="module-pantheonrl.algos.adap">Implementation of the ADAP algorithm (Derek 2021).</p>
+<p>Paper: <a class="reference external" href="https://arxiv.org/abs/2107.07506">https://arxiv.org/abs/2107.07506</a></p>
+</section>
 
 
            </div>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html
index 24e976f..fad1eb8 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html
@@ -99,8 +99,9 @@
 <h1>pantheonrl.algos.adap.policies.AdapPolicy<a class="headerlink" href="#pantheonrl-algos-adap-policies-adappolicy" title="Link to this heading"></a></h1>
 <dl class="py class">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicy">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">AdapPolicy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">observation_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lr_schedule</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">activation_fn=&lt;class</span> <span class="pre">'torch.nn.modules.activation.Tanh'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ortho_init=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_sde=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_std_init=0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">full_std=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sde_net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_expln=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">squash_output=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_class=&lt;class</span> <span class="pre">'stable_baselines3.common.torch_layers.FlattenExtractor'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">normalize_images=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_class=&lt;class</span> <span class="pre">'torch.optim.adam.Adam'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context_size=3</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#AdapPolicy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicy" title="Link to this definition"></a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">AdapPolicy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">observation_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lr_schedule</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">activation_fn=&lt;class</span> <span class="pre">'torch.nn.modules.activation.Tanh'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ortho_init=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_sde=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_std_init=0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">full_std=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_expln=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">squash_output=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_class=&lt;class</span> <span class="pre">'stable_baselines3.common.torch_layers.FlattenExtractor'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">share_features_extractor=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">normalize_images=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_class=&lt;class</span> <span class="pre">'torch.optim.adam.Adam'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context_size=3</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#AdapPolicy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicy" title="Link to this definition"></a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">ActorCriticPolicy</span></code></p>
+<p>Base Policy for the ADAP Actor-critic policy</p>
 <p>Initializes internal Module state, shared by both nn.Module and ScriptModule.</p>
 <p class="rubric">Methods</p>
 <table class="autosummary longtable docutils align-default">
@@ -133,7 +134,7 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicy<a class="headerlink" href="#panthe
 <td><p>Sets the module in evaluation mode.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicy.evaluate_actions" title="pantheonrl.algos.adap.policies.AdapPolicy.evaluate_actions"><code class="xref py py-obj docutils literal notranslate"><span class="pre">evaluate_actions</span></code></a></p></td>
-<td><p>Evaluate actions according to the current policy, given the observations. :param obs: :param actions: :return: estimated value, log likelihood of taking those actions     and entropy of the action distribution.</p></td>
+<td><p>Evaluate actions according to the current policy, given the observations.</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicy.extra_repr" title="pantheonrl.algos.adap.policies.AdapPolicy.extra_repr"><code class="xref py py-obj docutils literal notranslate"><span class="pre">extra_repr</span></code></a></p></td>
 <td><p>Set the extra representation of the module</p></td>
@@ -150,8 +151,8 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicy<a class="headerlink" href="#panthe
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicy.get_buffer" title="pantheonrl.algos.adap.policies.AdapPolicy.get_buffer"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_buffer</span></code></a></p></td>
 <td><p>Returns the buffer given by <code class="docutils literal notranslate"><span class="pre">target</span></code> if it exists, otherwise throws an error.</p></td>
 </tr>
-<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_context</span></code></p></td>
-<td><p></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicy.get_context" title="pantheonrl.algos.adap.policies.AdapPolicy.get_context"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_context</span></code></a></p></td>
+<td><p>Get the current context</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicy.get_distribution" title="pantheonrl.algos.adap.policies.AdapPolicy.get_distribution"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_distribution</span></code></a></p></td>
 <td><p>Get the current policy distribution given the observations.</p></td>
@@ -261,8 +262,8 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicy<a class="headerlink" href="#panthe
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicy.scale_action" title="pantheonrl.algos.adap.policies.AdapPolicy.scale_action"><code class="xref py py-obj docutils literal notranslate"><span class="pre">scale_action</span></code></a></p></td>
 <td><p>Rescale the action from [low, high] to [-1, 1] (no need for symmetric action space)</p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_context</span></code></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicy.set_context" title="pantheonrl.algos.adap.policies.AdapPolicy.set_context"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_context</span></code></a></p></td>
+<td><p>Set the context</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicy.set_extra_state" title="pantheonrl.algos.adap.policies.AdapPolicy.set_extra_state"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_extra_state</span></code></a></p></td>
 <td><p>This function is called from <a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicy.load_state_dict" title="pantheonrl.algos.adap.policies.AdapPolicy.load_state_dict"><code class="xref py py-func docutils literal notranslate"><span class="pre">load_state_dict()</span></code></a> to handle any extra state found within the <cite>state_dict</cite>.</p></td>
@@ -334,17 +335,17 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicy<a class="headerlink" href="#panthe
 <li><p><strong>observation_space</strong> (<em>Space</em>) – </p></li>
 <li><p><strong>action_space</strong> (<em>Space</em>) – </p></li>
 <li><p><strong>lr_schedule</strong> (<em>Callable</em><em>[</em><em>[</em><em>float</em><em>]</em><em>, </em><em>float</em><em>]</em>) – </p></li>
-<li><p><strong>net_arch</strong> (<em>List</em><em>[</em><em>int</em><em> | </em><em>Dict</em><em>[</em><em>str</em><em>, </em><em>List</em><em>[</em><em>int</em><em>]</em><em>]</em><em>] </em><em>| </em><em>None</em>) – </p></li>
+<li><p><strong>net_arch</strong> (<em>List</em><em>[</em><em>int</em><em>] </em><em>| </em><em>Dict</em><em>[</em><em>str</em><em>, </em><em>List</em><em>[</em><em>int</em><em>]</em><em>] </em><em>| </em><em>None</em>) – </p></li>
 <li><p><strong>activation_fn</strong> (<em>Type</em><em>[</em><em>Module</em><em>]</em>) – </p></li>
 <li><p><strong>ortho_init</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>use_sde</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>log_std_init</strong> (<em>float</em>) – </p></li>
 <li><p><strong>full_std</strong> (<em>bool</em>) – </p></li>
-<li><p><strong>sde_net_arch</strong> (<em>List</em><em>[</em><em>int</em><em>] </em><em>| </em><em>None</em>) – </p></li>
 <li><p><strong>use_expln</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>squash_output</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>features_extractor_class</strong> (<em>Type</em><em>[</em><em>BaseFeaturesExtractor</em><em>]</em>) – </p></li>
 <li><p><strong>features_extractor_kwargs</strong> (<em>Dict</em><em>[</em><em>str</em><em>, </em><em>Any</em><em>] </em><em>| </em><em>None</em>) – </p></li>
+<li><p><strong>share_features_extractor</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>normalize_images</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>optimizer_class</strong> (<em>Type</em><em>[</em><em>Optimizer</em><em>]</em>) – </p></li>
 <li><p><strong>optimizer_kwargs</strong> (<em>Dict</em><em>[</em><em>str</em><em>, </em><em>Any</em><em>] </em><em>| </em><em>None</em>) – </p></li>
@@ -619,22 +620,20 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicy<a class="headerlink" href="#panthe
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicy.evaluate_actions">
 <span class="sig-name descname"><span class="pre">evaluate_actions</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">actions</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#AdapPolicy.evaluate_actions"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicy.evaluate_actions" title="Link to this definition"></a></dt>
 <dd><p>Evaluate actions according to the current policy,
-given the observations.
-:param obs:
-:param actions:
-:return: estimated value, log likelihood of taking those actions</p>
-<blockquote>
-<div><p>and entropy of the action distribution.</p>
-</div></blockquote>
+given the observations.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
-<li><p><strong>obs</strong> (<em>Tensor</em>) – </p></li>
-<li><p><strong>actions</strong> (<em>Tensor</em>) – </p></li>
+<li><p><strong>obs</strong> (<em>Tensor</em>) – Observation</p></li>
+<li><p><strong>actions</strong> (<em>Tensor</em>) – Actions</p></li>
 </ul>
 </dd>
-<dt class="field-even">Return type<span class="colon">:</span></dt>
-<dd class="field-even"><p><em>Tuple</em>[<em>Tensor</em>, <em>Tensor</em>, <em>Tensor</em>]</p>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>estimated value, log likelihood of taking those actions
+and entropy of the action distribution.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p><em>Tuple</em>[<em>Tensor</em>, <em>Tensor</em>, <em>Tensor</em> | None]</p>
 </dd>
 </dl>
 </dd></dl>
@@ -694,7 +693,7 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicy<a class="headerlink" href="#panthe
 
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicy.forward">
-<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">deterministic</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicy.forward" title="Link to this definition"></a></dt>
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">deterministic</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#AdapPolicy.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicy.forward" title="Link to this definition"></a></dt>
 <dd><p>Forward pass in all the networks (actor and critic)</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
@@ -746,6 +745,12 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicy<a class="headerlink" href="#panthe
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicy.get_context">
+<span class="sig-name descname"><span class="pre">get_context</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#AdapPolicy.get_context"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicy.get_context" title="Link to this definition"></a></dt>
+<dd><p>Get the current context</p>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicy.get_distribution">
 <span class="sig-name descname"><span class="pre">get_distribution</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicy.get_distribution" title="Link to this definition"></a></dt>
@@ -1320,7 +1325,7 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicy<a class="headerlink" href="#panthe
 
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicy.predict_values">
-<span class="sig-name descname"><span class="pre">predict_values</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicy.predict_values" title="Link to this definition"></a></dt>
+<span class="sig-name descname"><span class="pre">predict_values</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#AdapPolicy.predict_values"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicy.predict_values" title="Link to this definition"></a></dt>
 <dd><p>Get the estimated values according to the current policy given the observations.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
@@ -1804,6 +1809,12 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicy<a class="headerlink" href="#panthe
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicy.set_context">
+<span class="sig-name descname"><span class="pre">set_context</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctxt</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#AdapPolicy.set_context"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicy.set_context" title="Link to this definition"></a></dt>
+<dd><p>Set the context</p>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicy.set_extra_state">
 <span class="sig-name descname"><span class="pre">set_extra_state</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicy.set_extra_state" title="Link to this definition"></a></dt>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult.html
index ee2e397..3dd623e 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult.html
@@ -99,8 +99,9 @@
 <h1>pantheonrl.algos.adap.policies.AdapPolicyMult<a class="headerlink" href="#pantheonrl-algos-adap-policies-adappolicymult" title="Link to this heading"></a></h1>
 <dl class="py class">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicyMult">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">AdapPolicyMult</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">observation_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lr_schedule</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">activation_fn=&lt;class</span> <span class="pre">'torch.nn.modules.activation.Tanh'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ortho_init=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_sde=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_std_init=0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">full_std=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sde_net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_expln=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">squash_output=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_class=&lt;class</span> <span class="pre">'stable_baselines3.common.torch_layers.FlattenExtractor'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">normalize_images=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_class=&lt;class</span> <span class="pre">'torch.optim.adam.Adam'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context_size=3</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#AdapPolicyMult"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicyMult" title="Link to this definition"></a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">AdapPolicyMult</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">observation_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lr_schedule</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">activation_fn=&lt;class</span> <span class="pre">'torch.nn.modules.activation.Tanh'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ortho_init=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_sde=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_std_init=0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">full_std=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_expln=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">squash_output=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_class=&lt;class</span> <span class="pre">'stable_baselines3.common.torch_layers.FlattenExtractor'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">share_features_extractor=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">normalize_images=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_class=&lt;class</span> <span class="pre">'torch.optim.adam.Adam'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context_size=3</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#AdapPolicyMult"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicyMult" title="Link to this definition"></a></dt>
 <dd><p>Bases: <a class="reference internal" href="pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy" title="pantheonrl.algos.adap.policies.AdapPolicy"><code class="xref py py-class docutils literal notranslate"><span class="pre">AdapPolicy</span></code></a></p>
+<p>Multiplicative Policy for the ADAP Actor-critic policy</p>
 <p>Initializes internal Module state, shared by both nn.Module and ScriptModule.</p>
 <p class="rubric">Methods</p>
 <table class="autosummary longtable docutils align-default">
@@ -133,7 +134,7 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicyMult<a class="headerlink" href="#pa
 <td><p>Sets the module in evaluation mode.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.evaluate_actions" title="pantheonrl.algos.adap.policies.AdapPolicyMult.evaluate_actions"><code class="xref py py-obj docutils literal notranslate"><span class="pre">evaluate_actions</span></code></a></p></td>
-<td><p>Evaluate actions according to the current policy, given the observations. :param obs: :param actions: :return: estimated value, log likelihood of taking those actions     and entropy of the action distribution.</p></td>
+<td><p>Evaluate actions according to the current policy, given the observations.</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.extra_repr" title="pantheonrl.algos.adap.policies.AdapPolicyMult.extra_repr"><code class="xref py py-obj docutils literal notranslate"><span class="pre">extra_repr</span></code></a></p></td>
 <td><p>Set the extra representation of the module</p></td>
@@ -150,8 +151,8 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicyMult<a class="headerlink" href="#pa
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.get_buffer" title="pantheonrl.algos.adap.policies.AdapPolicyMult.get_buffer"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_buffer</span></code></a></p></td>
 <td><p>Returns the buffer given by <code class="docutils literal notranslate"><span class="pre">target</span></code> if it exists, otherwise throws an error.</p></td>
 </tr>
-<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_context</span></code></p></td>
-<td><p></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.get_context" title="pantheonrl.algos.adap.policies.AdapPolicyMult.get_context"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_context</span></code></a></p></td>
+<td><p>Get the current context</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.get_distribution" title="pantheonrl.algos.adap.policies.AdapPolicyMult.get_distribution"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_distribution</span></code></a></p></td>
 <td><p>Get the current policy distribution given the observations.</p></td>
@@ -261,8 +262,8 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicyMult<a class="headerlink" href="#pa
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.scale_action" title="pantheonrl.algos.adap.policies.AdapPolicyMult.scale_action"><code class="xref py py-obj docutils literal notranslate"><span class="pre">scale_action</span></code></a></p></td>
 <td><p>Rescale the action from [low, high] to [-1, 1] (no need for symmetric action space)</p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_context</span></code></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.set_context" title="pantheonrl.algos.adap.policies.AdapPolicyMult.set_context"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_context</span></code></a></p></td>
+<td><p>Set the context</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.set_extra_state" title="pantheonrl.algos.adap.policies.AdapPolicyMult.set_extra_state"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_extra_state</span></code></a></p></td>
 <td><p>This function is called from <a class="reference internal" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.load_state_dict" title="pantheonrl.algos.adap.policies.AdapPolicyMult.load_state_dict"><code class="xref py py-func docutils literal notranslate"><span class="pre">load_state_dict()</span></code></a> to handle any extra state found within the <cite>state_dict</cite>.</p></td>
@@ -334,17 +335,17 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicyMult<a class="headerlink" href="#pa
 <li><p><strong>observation_space</strong> (<em>Space</em>) – </p></li>
 <li><p><strong>action_space</strong> (<em>Space</em>) – </p></li>
 <li><p><strong>lr_schedule</strong> (<em>Callable</em><em>[</em><em>[</em><em>float</em><em>]</em><em>, </em><em>float</em><em>]</em>) – </p></li>
-<li><p><strong>net_arch</strong> (<em>List</em><em>[</em><em>int</em><em> | </em><em>Dict</em><em>[</em><em>str</em><em>, </em><em>List</em><em>[</em><em>int</em><em>]</em><em>]</em><em>] </em><em>| </em><em>None</em>) – </p></li>
+<li><p><strong>net_arch</strong> (<em>List</em><em>[</em><em>int</em><em>] </em><em>| </em><em>Dict</em><em>[</em><em>str</em><em>, </em><em>List</em><em>[</em><em>int</em><em>]</em><em>] </em><em>| </em><em>None</em>) – </p></li>
 <li><p><strong>activation_fn</strong> (<em>Type</em><em>[</em><em>Module</em><em>]</em>) – </p></li>
 <li><p><strong>ortho_init</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>use_sde</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>log_std_init</strong> (<em>float</em>) – </p></li>
 <li><p><strong>full_std</strong> (<em>bool</em>) – </p></li>
-<li><p><strong>sde_net_arch</strong> (<em>List</em><em>[</em><em>int</em><em>] </em><em>| </em><em>None</em>) – </p></li>
 <li><p><strong>use_expln</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>squash_output</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>features_extractor_class</strong> (<em>Type</em><em>[</em><em>BaseFeaturesExtractor</em><em>]</em>) – </p></li>
 <li><p><strong>features_extractor_kwargs</strong> (<em>Dict</em><em>[</em><em>str</em><em>, </em><em>Any</em><em>] </em><em>| </em><em>None</em>) – </p></li>
+<li><p><strong>share_features_extractor</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>normalize_images</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>optimizer_class</strong> (<em>Type</em><em>[</em><em>Optimizer</em><em>]</em>) – </p></li>
 <li><p><strong>optimizer_kwargs</strong> (<em>Dict</em><em>[</em><em>str</em><em>, </em><em>Any</em><em>] </em><em>| </em><em>None</em>) – </p></li>
@@ -619,22 +620,20 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicyMult<a class="headerlink" href="#pa
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicyMult.evaluate_actions">
 <span class="sig-name descname"><span class="pre">evaluate_actions</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">actions</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.evaluate_actions" title="Link to this definition"></a></dt>
 <dd><p>Evaluate actions according to the current policy,
-given the observations.
-:param obs:
-:param actions:
-:return: estimated value, log likelihood of taking those actions</p>
-<blockquote>
-<div><p>and entropy of the action distribution.</p>
-</div></blockquote>
+given the observations.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
-<li><p><strong>obs</strong> (<em>Tensor</em>) – </p></li>
-<li><p><strong>actions</strong> (<em>Tensor</em>) – </p></li>
+<li><p><strong>obs</strong> (<em>Tensor</em>) – Observation</p></li>
+<li><p><strong>actions</strong> (<em>Tensor</em>) – Actions</p></li>
 </ul>
 </dd>
-<dt class="field-even">Return type<span class="colon">:</span></dt>
-<dd class="field-even"><p><em>Tuple</em>[<em>Tensor</em>, <em>Tensor</em>, <em>Tensor</em>]</p>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>estimated value, log likelihood of taking those actions
+and entropy of the action distribution.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p><em>Tuple</em>[<em>Tensor</em>, <em>Tensor</em>, <em>Tensor</em> | None]</p>
 </dd>
 </dl>
 </dd></dl>
@@ -746,6 +745,12 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicyMult<a class="headerlink" href="#pa
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicyMult.get_context">
+<span class="sig-name descname"><span class="pre">get_context</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.get_context" title="Link to this definition"></a></dt>
+<dd><p>Get the current context</p>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicyMult.get_distribution">
 <span class="sig-name descname"><span class="pre">get_distribution</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.get_distribution" title="Link to this definition"></a></dt>
@@ -1804,6 +1809,12 @@ <h1>pantheonrl.algos.adap.policies.AdapPolicyMult<a class="headerlink" href="#pa
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicyMult.set_context">
+<span class="sig-name descname"><span class="pre">set_context</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctxt</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.set_context" title="Link to this definition"></a></dt>
+<dd><p>Set the context</p>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.AdapPolicyMult.set_extra_state">
 <span class="sig-name descname"><span class="pre">set_extra_state</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.adap.policies.AdapPolicyMult.set_extra_state" title="Link to this definition"></a></dt>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.MultModel.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.MultModel.html
index 98a86b1..487b9c6 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.MultModel.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.MultModel.html
@@ -100,7 +100,8 @@ <h1>pantheonrl.algos.adap.policies.MultModel<a class="headerlink" href="#pantheo
 <dl class="py class">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.MultModel">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">MultModel</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">feature_dim</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">net_arch</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">activation_fn</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context_size</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#MultModel"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.MultModel" title="Link to this definition"></a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">MlpExtractor</span></code></p>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Module</span></code></p>
+<p>Neural Network representing multiplicative layers</p>
 <p>Initializes internal Module state, shared by both nn.Module and ScriptModule.</p>
 <p class="rubric">Methods</p>
 <table class="autosummary longtable docutils align-default">
@@ -139,18 +140,13 @@ <h1>pantheonrl.algos.adap.policies.MultModel<a class="headerlink" href="#pantheo
 <td><p>Casts all floating point parameters and buffers to <code class="docutils literal notranslate"><span class="pre">float</span></code> datatype.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.forward" title="pantheonrl.algos.adap.policies.MultModel.forward"><code class="xref py py-obj docutils literal notranslate"><span class="pre">forward</span></code></a></p></td>
-<td><p><dl class="field-list simple">
-<dt class="field-odd">return<span class="colon">:</span></dt>
-<dd class="field-odd"><p>latent_policy, latent_value of the specified network.</p>
-</dd>
-</dl>
-</p></td>
+<td><p>Returns the action logits and values</p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">forward_actor</span></code></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.forward_actor" title="pantheonrl.algos.adap.policies.MultModel.forward_actor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">forward_actor</span></code></a></p></td>
+<td><p>Returns the action logits and values</p></td>
 </tr>
-<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">forward_critic</span></code></p></td>
-<td><p></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.forward_critic" title="pantheonrl.algos.adap.policies.MultModel.forward_critic"><code class="xref py py-obj docutils literal notranslate"><span class="pre">forward_critic</span></code></a></p></td>
+<td><p>Returns the action logits and values</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.get_buffer" title="pantheonrl.algos.adap.policies.MultModel.get_buffer"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_buffer</span></code></a></p></td>
 <td><p>Returns the buffer given by <code class="docutils literal notranslate"><span class="pre">target</span></code> if it exists, otherwise throws an error.</p></td>
@@ -158,12 +154,6 @@ <h1>pantheonrl.algos.adap.policies.MultModel<a class="headerlink" href="#pantheo
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.get_extra_state" title="pantheonrl.algos.adap.policies.MultModel.get_extra_state"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_extra_state</span></code></a></p></td>
 <td><p>Returns any extra state to include in the module's state_dict.</p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_input_size_excluding_ctx</span></code></p></td>
-<td><p></p></td>
-</tr>
-<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_input_size_inluding_ctx</span></code></p></td>
-<td><p></p></td>
-</tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.get_parameter" title="pantheonrl.algos.adap.policies.MultModel.get_parameter"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_parameter</span></code></a></p></td>
 <td><p>Returns the parameter given by <code class="docutils literal notranslate"><span class="pre">target</span></code> if it exists, otherwise throws an error.</p></td>
 </tr>
@@ -197,8 +187,8 @@ <h1>pantheonrl.algos.adap.policies.MultModel<a class="headerlink" href="#pantheo
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.parameters" title="pantheonrl.algos.adap.policies.MultModel.parameters"><code class="xref py py-obj docutils literal notranslate"><span class="pre">parameters</span></code></a></p></td>
 <td><p>Returns an iterator over module parameters.</p></td>
 </tr>
-<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">policies</span></code></p></td>
-<td><p></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.policies" title="pantheonrl.algos.adap.policies.MultModel.policies"><code class="xref py py-obj docutils literal notranslate"><span class="pre">policies</span></code></a></p></td>
+<td><p>Returns the logits from the policy function</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.register_backward_hook" title="pantheonrl.algos.adap.policies.MultModel.register_backward_hook"><code class="xref py py-obj docutils literal notranslate"><span class="pre">register_backward_hook</span></code></a></p></td>
 <td><p>Registers a backward hook on the module.</p></td>
@@ -254,8 +244,8 @@ <h1>pantheonrl.algos.adap.policies.MultModel<a class="headerlink" href="#pantheo
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.type" title="pantheonrl.algos.adap.policies.MultModel.type"><code class="xref py py-obj docutils literal notranslate"><span class="pre">type</span></code></a></p></td>
 <td><p>Casts all parameters and buffers to <code class="xref py py-attr docutils literal notranslate"><span class="pre">dst_type</span></code>.</p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">values</span></code></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.values" title="pantheonrl.algos.adap.policies.MultModel.values"><code class="xref py py-obj docutils literal notranslate"><span class="pre">values</span></code></a></p></td>
+<td><p>Returns the response from the value function</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.adap.policies.MultModel.xpu" title="pantheonrl.algos.adap.policies.MultModel.xpu"><code class="xref py py-obj docutils literal notranslate"><span class="pre">xpu</span></code></a></p></td>
 <td><p>Moves all model parameters and buffers to the XPU.</p></td>
@@ -572,16 +562,41 @@ <h1>pantheonrl.algos.adap.policies.MultModel<a class="headerlink" href="#pantheo
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.MultModel.forward">
 <span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">features</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#MultModel.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.MultModel.forward" title="Link to this definition"></a></dt>
-<dd><dl class="field-list simple">
-<dt class="field-odd">Returns<span class="colon">:</span></dt>
-<dd class="field-odd"><p>latent_policy, latent_value of the specified network.
-If all layers are shared, then <code class="docutils literal notranslate"><span class="pre">latent_policy</span> <span class="pre">==</span> <span class="pre">latent_value</span></code></p>
+<dd><p>Returns the action logits and values</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>features</strong> (<em>Tensor</em>) – </p>
 </dd>
-<dt class="field-even">Parameters<span class="colon">:</span></dt>
-<dd class="field-even"><p><strong>features</strong> (<em>Tensor</em>) – </p>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><em>Tuple</em>[<em>Tensor</em>, <em>Tensor</em>]</p>
 </dd>
-<dt class="field-odd">Return type<span class="colon">:</span></dt>
-<dd class="field-odd"><p><em>Tuple</em>[<em>Tensor</em>, <em>Tensor</em>]</p>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.MultModel.forward_actor">
+<span class="sig-name descname"><span class="pre">forward_actor</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">features</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#MultModel.forward_actor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.MultModel.forward_actor" title="Link to this definition"></a></dt>
+<dd><p>Returns the action logits and values</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>features</strong> (<em>Tensor</em>) – </p>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><em>Tensor</em></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.MultModel.forward_critic">
+<span class="sig-name descname"><span class="pre">forward_critic</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">features</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#MultModel.forward_critic"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.MultModel.forward_critic" title="Link to this definition"></a></dt>
+<dd><p>Returns the action logits and values</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>features</strong> (<em>Tensor</em>) – </p>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><em>Tensor</em></p>
 </dd>
 </dl>
 </dd></dl>
@@ -1035,6 +1050,23 @@ <h1>pantheonrl.algos.adap.policies.MultModel<a class="headerlink" href="#pantheo
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.MultModel.policies">
+<span class="sig-name descname"><span class="pre">policies</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">observations</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">contexts</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#MultModel.policies"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.MultModel.policies" title="Link to this definition"></a></dt>
+<dd><p>Returns the logits from the policy function</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>observations</strong> (<em>Tensor</em>) – </p></li>
+<li><p><strong>contexts</strong> (<em>Tensor</em>) – </p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><em>Tensor</em></p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.MultModel.register_backward_hook">
 <span class="sig-name descname"><span class="pre">register_backward_hook</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hook</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.adap.policies.MultModel.register_backward_hook" title="Link to this definition"></a></dt>
@@ -1721,6 +1753,23 @@ <h1>pantheonrl.algos.adap.policies.MultModel<a class="headerlink" href="#pantheo
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.MultModel.values">
+<span class="sig-name descname"><span class="pre">values</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">observations</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">contexts</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/policies.html#MultModel.values"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.policies.MultModel.values" title="Link to this definition"></a></dt>
+<dd><p>Returns the response from the value function</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>observations</strong> (<em>Tensor</em>) – </p></li>
+<li><p><strong>contexts</strong> (<em>Tensor</em>) – </p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><em>Tensor</em></p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.policies.MultModel.xpu">
 <span class="sig-name descname"><span class="pre">xpu</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.adap.policies.MultModel.xpu" title="Link to this definition"></a></dt>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.html
index 0d83424..3a16261 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.policies.html
@@ -96,17 +96,18 @@
              
   <section id="module-pantheonrl.algos.adap.policies">
 <span id="pantheonrl-algos-adap-policies"></span><h1>pantheonrl.algos.adap.policies<a class="headerlink" href="#module-pantheonrl.algos.adap.policies" title="Link to this heading"></a></h1>
+<p>Module defining the Policy for ADAP</p>
 <p class="rubric">Classes</p>
 <table class="autosummary longtable docutils align-default">
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy" title="pantheonrl.algos.adap.policies.AdapPolicy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">AdapPolicy</span></code></a></p></td>
-<td><p>Initializes internal Module state, shared by both nn.Module and ScriptModule.</p></td>
+<td><p>Base Policy for the ADAP Actor-critic policy</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.algos.adap.policies.AdapPolicyMult.html#pantheonrl.algos.adap.policies.AdapPolicyMult" title="pantheonrl.algos.adap.policies.AdapPolicyMult"><code class="xref py py-obj docutils literal notranslate"><span class="pre">AdapPolicyMult</span></code></a></p></td>
-<td><p>Initializes internal Module state, shared by both nn.Module and ScriptModule.</p></td>
+<td><p>Multiplicative Policy for the ADAP Actor-critic policy</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel" title="pantheonrl.algos.adap.policies.MultModel"><code class="xref py py-obj docutils literal notranslate"><span class="pre">MultModel</span></code></a></p></td>
-<td><p>Initializes internal Module state, shared by both nn.Module and ScriptModule.</p></td>
+<td><p>Neural Network representing multiplicative layers</p></td>
 </tr>
 </tbody>
 </table>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.html
index b2348c3..9e28816 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.html
@@ -4,7 +4,7 @@
   <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>pantheonrl.algos.adap.util.get_L2_sphere &mdash; PantheonRL 0.1 documentation</title>
+  <title>pantheonrl.algos.adap.util.get_l2_sphere &mdash; PantheonRL 0.1 documentation</title>
       <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
       <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!--[if lt IE 9]>
@@ -18,9 +18,7 @@
         <script src="../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../genindex.html" />
-    <link rel="search" title="Search" href="../search.html" />
-    <link rel="next" title="pantheonrl.algos.adap.util.get_categorical" href="pantheonrl.algos.adap.util.get_categorical.html" />
-    <link rel="prev" title="pantheonrl.algos.adap.util" href="pantheonrl.algos.adap.util.html" /> 
+    <link rel="search" title="Search" href="../search.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -48,24 +46,8 @@
 <li class="toctree-l1"><a class="reference internal" href="../guide/install.html">Installation</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">API reference</span></p>
-<ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="pantheonrl.html">pantheonrl</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="pantheonrl.algos.html">pantheonrl.algos</a><ul class="current">
-<li class="toctree-l3 current"><a class="reference internal" href="pantheonrl.algos.adap.html">pantheonrl.algos.adap</a><ul class="current">
-<li class="toctree-l4"><a class="reference internal" href="pantheonrl.algos.adap.adap_learn.html">pantheonrl.algos.adap.adap_learn</a></li>
-<li class="toctree-l4"><a class="reference internal" href="pantheonrl.algos.adap.agent.html">pantheonrl.algos.adap.agent</a></li>
-<li class="toctree-l4"><a class="reference internal" href="pantheonrl.algos.adap.policies.html">pantheonrl.algos.adap.policies</a></li>
-<li class="toctree-l4 current"><a class="reference internal" href="pantheonrl.algos.adap.util.html">pantheonrl.algos.adap.util</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="pantheonrl.algos.bc.html">pantheonrl.algos.bc</a></li>
-<li class="toctree-l3"><a class="reference internal" href="pantheonrl.algos.modular.html">pantheonrl.algos.modular</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="pantheonrl.common.html">pantheonrl.common</a></li>
-<li class="toctree-l2"><a class="reference internal" href="pantheonrl.envs.html">pantheonrl.envs</a></li>
-</ul>
-</li>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="pantheonrl.html">pantheonrl</a></li>
 </ul>
 
         </div>
@@ -82,11 +64,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="pantheonrl.html">pantheonrl</a></li>
-          <li class="breadcrumb-item"><a href="pantheonrl.algos.html">pantheonrl.algos</a></li>
-          <li class="breadcrumb-item"><a href="pantheonrl.algos.adap.html">pantheonrl.algos.adap</a></li>
-          <li class="breadcrumb-item"><a href="pantheonrl.algos.adap.util.html">pantheonrl.algos.adap.util</a></li>
-      <li class="breadcrumb-item active">pantheonrl.algos.adap.util.get_L2_sphere</li>
+      <li class="breadcrumb-item active">pantheonrl.algos.adap.util.get_l2_sphere</li>
       <li class="wy-breadcrumbs-aside">
       </li>
   </ul>
@@ -96,21 +74,19 @@
            <div itemprop="articleBody">
              
   <section id="pantheonrl-algos-adap-util-get-l2-sphere">
-<h1>pantheonrl.algos.adap.util.get_L2_sphere<a class="headerlink" href="#pantheonrl-algos-adap-util-get-l2-sphere" title="Link to this heading"></a></h1>
+<h1>pantheonrl.algos.adap.util.get_l2_sphere<a class="headerlink" href="#pantheonrl-algos-adap-util-get-l2-sphere" title="Link to this heading"></a></h1>
 <dl class="py function">
-<dt class="sig sig-object py" id="pantheonrl.algos.adap.util.get_L2_sphere">
-<span class="sig-name descname"><span class="pre">get_L2_sphere</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctx_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/util.html#get_L2_sphere"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.util.get_L2_sphere" title="Link to this definition"></a></dt>
-<dd></dd></dl>
+<dt class="sig sig-object py" id="pantheonrl.algos.adap.util.get_l2_sphere">
+<span class="sig-name descname"><span class="pre">get_l2_sphere</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctx_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_torch</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/util.html#get_l2_sphere"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.util.get_l2_sphere" title="Link to this definition"></a></dt>
+<dd><p>Samples from l2 sphere</p>
+</dd></dl>
 
 </section>
 
 
            </div>
           </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="pantheonrl.algos.adap.util.html" class="btn btn-neutral float-left" title="pantheonrl.algos.adap.util" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="pantheonrl.algos.adap.util.get_categorical.html" class="btn btn-neutral float-right" title="pantheonrl.algos.adap.util.get_categorical" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
+          <footer>
 
   <hr/>
 
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_categorical.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_categorical.html
index 706685c..50f9764 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_categorical.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_categorical.html
@@ -20,7 +20,7 @@
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="pantheonrl.algos.adap.util.get_context_kl_loss" href="pantheonrl.algos.adap.util.get_context_kl_loss.html" />
-    <link rel="prev" title="pantheonrl.algos.adap.util.get_L2_sphere" href="pantheonrl.algos.adap.util.get_L2_sphere.html" /> 
+    <link rel="prev" title="pantheonrl.algos.adap.util" href="pantheonrl.algos.adap.util.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -99,8 +99,9 @@
 <h1>pantheonrl.algos.adap.util.get_categorical<a class="headerlink" href="#pantheonrl-algos-adap-util-get-categorical" title="Link to this heading"></a></h1>
 <dl class="py function">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.util.get_categorical">
-<span class="sig-name descname"><span class="pre">get_categorical</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctx_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/util.html#get_categorical"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.util.get_categorical" title="Link to this definition"></a></dt>
-<dd></dd></dl>
+<span class="sig-name descname"><span class="pre">get_categorical</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctx_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_torch</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/util.html#get_categorical"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.util.get_categorical" title="Link to this definition"></a></dt>
+<dd><p>Samples from categorical distribution</p>
+</dd></dl>
 
 </section>
 
@@ -108,7 +109,7 @@ <h1>pantheonrl.algos.adap.util.get_categorical<a class="headerlink" href="#panth
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="pantheonrl.algos.adap.util.get_L2_sphere.html" class="btn btn-neutral float-left" title="pantheonrl.algos.adap.util.get_L2_sphere" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="pantheonrl.algos.adap.util.html" class="btn btn-neutral float-left" title="pantheonrl.algos.adap.util" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
         <a href="pantheonrl.algos.adap.util.get_context_kl_loss.html" class="btn btn-neutral float-right" title="pantheonrl.algos.adap.util.get_context_kl_loss" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_context_kl_loss.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_context_kl_loss.html
index 51030bd..92b59ae 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_context_kl_loss.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_context_kl_loss.html
@@ -100,7 +100,8 @@ <h1>pantheonrl.algos.adap.util.get_context_kl_loss<a class="headerlink" href="#p
 <dl class="py function">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.util.get_context_kl_loss">
 <span class="sig-name descname"><span class="pre">get_context_kl_loss</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">policy</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">train_batch</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/util.html#get_context_kl_loss"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.util.get_context_kl_loss" title="Link to this definition"></a></dt>
-<dd><dl class="field-list simple">
+<dd><p>Gets the KL loss for ADAP</p>
+<dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>policy</strong> (<a class="reference internal" href="pantheonrl.algos.adap.adap_learn.ADAP.html#pantheonrl.algos.adap.adap_learn.ADAP" title="pantheonrl.algos.adap.adap_learn.ADAP"><em>ADAP</em></a>) – </p></li>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_natural_number.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_natural_number.html
index 22d8053..2cda0f3 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_natural_number.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_natural_number.html
@@ -99,7 +99,7 @@
 <h1>pantheonrl.algos.adap.util.get_natural_number<a class="headerlink" href="#pantheonrl-algos-adap-util-get-natural-number" title="Link to this heading"></a></h1>
 <dl class="py function">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.util.get_natural_number">
-<span class="sig-name descname"><span class="pre">get_natural_number</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctx_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/util.html#get_natural_number"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.util.get_natural_number" title="Link to this definition"></a></dt>
+<span class="sig-name descname"><span class="pre">get_natural_number</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctx_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_torch</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/util.html#get_natural_number"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.util.get_natural_number" title="Link to this definition"></a></dt>
 <dd><p>Returns context vector of shape (num,1) with numbers in range [0, ctx_size]</p>
 </dd></dl>
 
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_positive_square.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_positive_square.html
index 9246541..23c677f 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_positive_square.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_positive_square.html
@@ -99,8 +99,9 @@
 <h1>pantheonrl.algos.adap.util.get_positive_square<a class="headerlink" href="#pantheonrl-algos-adap-util-get-positive-square" title="Link to this heading"></a></h1>
 <dl class="py function">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.util.get_positive_square">
-<span class="sig-name descname"><span class="pre">get_positive_square</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctx_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/util.html#get_positive_square"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.util.get_positive_square" title="Link to this definition"></a></dt>
-<dd></dd></dl>
+<span class="sig-name descname"><span class="pre">get_positive_square</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctx_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_torch</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/util.html#get_positive_square"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.util.get_positive_square" title="Link to this definition"></a></dt>
+<dd><p>Samples from the square with axes between 0 and 1</p>
+</dd></dl>
 
 </section>
 
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_unit_square.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_unit_square.html
index 07ace0d..73cf038 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_unit_square.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.get_unit_square.html
@@ -99,8 +99,9 @@
 <h1>pantheonrl.algos.adap.util.get_unit_square<a class="headerlink" href="#pantheonrl-algos-adap-util-get-unit-square" title="Link to this heading"></a></h1>
 <dl class="py function">
 <dt class="sig sig-object py" id="pantheonrl.algos.adap.util.get_unit_square">
-<span class="sig-name descname"><span class="pre">get_unit_square</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctx_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/util.html#get_unit_square"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.util.get_unit_square" title="Link to this definition"></a></dt>
-<dd></dd></dl>
+<span class="sig-name descname"><span class="pre">get_unit_square</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ctx_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_torch</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/adap/util.html#get_unit_square"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.adap.util.get_unit_square" title="Link to this definition"></a></dt>
+<dd><p>Samples from unit square centered at 0</p>
+</dd></dl>
 
 </section>
 
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.html b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.html
index 265b9ea..828ee54 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.adap.util.html
@@ -19,7 +19,7 @@
     <script src="../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
-    <link rel="next" title="pantheonrl.algos.adap.util.get_L2_sphere" href="pantheonrl.algos.adap.util.get_L2_sphere.html" />
+    <link rel="next" title="pantheonrl.algos.adap.util.get_categorical" href="pantheonrl.algos.adap.util.get_categorical.html" />
     <link rel="prev" title="pantheonrl.algos.adap.policies.MultModel" href="pantheonrl.algos.adap.policies.MultModel.html" /> 
 </head>
 
@@ -96,26 +96,27 @@
              
   <section id="module-pantheonrl.algos.adap.util">
 <span id="pantheonrl-algos-adap-util"></span><h1>pantheonrl.algos.adap.util<a class="headerlink" href="#module-pantheonrl.algos.adap.util" title="Link to this heading"></a></h1>
+<p>Collection of helper functions for ADAP</p>
 <p class="rubric">Functions</p>
 <table class="autosummary longtable docutils align-default">
 <tbody>
-<tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.util.get_L2_sphere.html#pantheonrl.algos.adap.util.get_L2_sphere" title="pantheonrl.algos.adap.util.get_L2_sphere"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_L2_sphere</span></code></a></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.util.get_categorical.html#pantheonrl.algos.adap.util.get_categorical" title="pantheonrl.algos.adap.util.get_categorical"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_categorical</span></code></a></p></td>
+<td><p>Samples from categorical distribution</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.algos.adap.util.get_categorical.html#pantheonrl.algos.adap.util.get_categorical" title="pantheonrl.algos.adap.util.get_categorical"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_categorical</span></code></a></p></td>
-<td><p></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.algos.adap.util.get_context_kl_loss.html#pantheonrl.algos.adap.util.get_context_kl_loss" title="pantheonrl.algos.adap.util.get_context_kl_loss"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_context_kl_loss</span></code></a></p></td>
+<td><p>Gets the KL loss for ADAP</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.util.get_context_kl_loss.html#pantheonrl.algos.adap.util.get_context_kl_loss" title="pantheonrl.algos.adap.util.get_context_kl_loss"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_context_kl_loss</span></code></a></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.util.get_L2_sphere.html#pantheonrl.algos.adap.util.get_l2_sphere" title="pantheonrl.algos.adap.util.get_l2_sphere"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_l2_sphere</span></code></a></p></td>
+<td><p>Samples from l2 sphere</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.algos.adap.util.get_natural_number.html#pantheonrl.algos.adap.util.get_natural_number" title="pantheonrl.algos.adap.util.get_natural_number"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_natural_number</span></code></a></p></td>
 <td><p>Returns context vector of shape (num,1) with numbers in range [0, ctx_size]</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.util.get_positive_square.html#pantheonrl.algos.adap.util.get_positive_square" title="pantheonrl.algos.adap.util.get_positive_square"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_positive_square</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Samples from the square with axes between 0 and 1</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.algos.adap.util.get_unit_square.html#pantheonrl.algos.adap.util.get_unit_square" title="pantheonrl.algos.adap.util.get_unit_square"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_unit_square</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Samples from unit square centered at 0</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.util.kl_divergence.html#pantheonrl.algos.adap.util.kl_divergence" title="pantheonrl.algos.adap.util.kl_divergence"><code class="xref py py-obj docutils literal notranslate"><span class="pre">kl_divergence</span></code></a></p></td>
 <td><p>Wrapper for the PyTorch implementation of the full form KL Divergence :param dist_true: the p distribution :param dist_pred: the q distribution :return: KL(dist_true||dist_pred)</p></td>
@@ -129,7 +130,7 @@
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
         <a href="pantheonrl.algos.adap.policies.MultModel.html" class="btn btn-neutral float-left" title="pantheonrl.algos.adap.policies.MultModel" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="pantheonrl.algos.adap.util.get_L2_sphere.html" class="btn btn-neutral float-right" title="pantheonrl.algos.adap.util.get_L2_sphere" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="pantheonrl.algos.adap.util.get_categorical.html" class="btn btn-neutral float-right" title="pantheonrl.algos.adap.util.get_categorical" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.bc.BC.html b/docs_build/build/html/_autosummary/pantheonrl.algos.bc.BC.html
index 4832d66..2111020 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.bc.BC.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.bc.BC.html
@@ -101,8 +101,8 @@ <h1>pantheonrl.algos.bc.BC<a class="headerlink" href="#pantheonrl-algos-bc-bc" t
 <dt class="sig sig-object py" id="pantheonrl.algos.bc.BC">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">BC</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">observation_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">policy_class=&lt;class</span> <span class="pre">'pantheonrl.common.util.FeedForward32Policy'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">policy_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">expert_data=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_cls=&lt;class</span> <span class="pre">'torch.optim.adam.Adam'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ent_weight=0.001</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">l2_weight=0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device='auto'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/bc.html#BC"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.bc.BC" title="Link to this definition"></a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>Behavioral cloning (BC).
-Recovers a policy via supervised learning on observation-action Tensor
+<p>Behavioral cloning (BC).</p>
+<p>Recovers a policy via supervised learning on observation-action Tensor
 pairs, sampled from a Torch DataLoader or any Iterator that ducktypes
 <cite>torch.utils.data.DataLoader</cite>.
 Args:</p>
@@ -129,7 +129,7 @@ <h1>pantheonrl.algos.bc.BC<a class="headerlink" href="#pantheonrl-algos-bc-bc" t
 <table class="autosummary longtable docutils align-default">
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.bc.BC.save_policy" title="pantheonrl.algos.bc.BC.save_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">save_policy</span></code></a></p></td>
-<td><p>Save policy to a path. Can be reloaded by <cite>.reconstruct_policy()</cite>. Args:     policy_path: path to save policy to.</p></td>
+<td><p>Save policy to a patorch. Can be reloaded by <cite>.reconstruct_policy()</cite>. Args:     policy_path: path to save policy to.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.bc.BC.set_expert_data_loader" title="pantheonrl.algos.bc.BC.set_expert_data_loader"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_expert_data_loader</span></code></a></p></td>
 <td><p>Set the expert data loader, which yields batches of obs-act pairs. Changing the expert data loader on-demand is useful for DAgger and other interactive algorithms. Args:      expert_data: Either a Torch <cite>DataLoader</cite>, any other iterator that         yields dictionaries containing &quot;obs&quot; and &quot;acts&quot; Tensors or         Numpy arrays, or a <cite>TransitionsMinimal</cite> instance. If this is a <cite>TransitionsMinimal</cite> instance, then it is         automatically converted into a shuffled <cite>DataLoader</cite> with batch         size <cite>BC.DEFAULT_BATCH_SIZE</cite>.</p></td>
@@ -173,7 +173,7 @@ <h1>pantheonrl.algos.bc.BC<a class="headerlink" href="#pantheonrl-algos-bc-bc" t
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.bc.BC.save_policy">
 <span class="sig-name descname"><span class="pre">save_policy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">policy_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/bc.html#BC.save_policy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.bc.BC.save_policy" title="Link to this definition"></a></dt>
-<dd><p>Save policy to a path. Can be reloaded by <cite>.reconstruct_policy()</cite>.
+<dd><p>Save policy to a patorch. Can be reloaded by <cite>.reconstruct_policy()</cite>.
 Args:</p>
 <blockquote>
 <div><p>policy_path: path to save policy to.</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.bc.BCShell.html b/docs_build/build/html/_autosummary/pantheonrl.algos.bc.BCShell.html
index 370e216..76511f2 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.bc.BCShell.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.bc.BCShell.html
@@ -101,11 +101,43 @@ <h1>pantheonrl.algos.bc.BCShell<a class="headerlink" href="#pantheonrl-algos-bc-
 <dt class="sig sig-object py" id="pantheonrl.algos.bc.BCShell">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">BCShell</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">policy</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/bc.html#BCShell"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.bc.BCShell" title="Link to this definition"></a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Shell class for BC policy</p>
 <p class="rubric">Methods</p>
 <table class="autosummary longtable docutils align-default">
 <tbody>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.bc.BCShell.get_policy" title="pantheonrl.algos.bc.BCShell.get_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_policy</span></code></a></p></td>
+<td><p>Get the current policy</p></td>
+</tr>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.bc.BCShell.set_policy" title="pantheonrl.algos.bc.BCShell.set_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_policy</span></code></a></p></td>
+<td><p>Set the BC policy</p></td>
+</tr>
 </tbody>
 </table>
+<p class="rubric">Attributes</p>
+<table class="autosummary longtable docutils align-default">
+<tbody>
+<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">policy</span></code></p></td>
+<td><p></p></td>
+</tr>
+</tbody>
+</table>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>policy</strong> (<a class="reference internal" href="pantheonrl.common.util.FeedForward32Policy.html#pantheonrl.common.util.FeedForward32Policy" title="pantheonrl.common.util.FeedForward32Policy"><em>FeedForward32Policy</em></a>) – </p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.bc.BCShell.get_policy">
+<span class="sig-name descname"><span class="pre">get_policy</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/bc.html#BCShell.get_policy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.bc.BCShell.get_policy" title="Link to this definition"></a></dt>
+<dd><p>Get the current policy</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.bc.BCShell.set_policy">
+<span class="sig-name descname"><span class="pre">set_policy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">new_policy</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/bc.html#BCShell.set_policy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.bc.BCShell.set_policy" title="Link to this definition"></a></dt>
+<dd><p>Set the BC policy</p>
+</dd></dl>
+
 </dd></dl>
 
 </section>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.html b/docs_build/build/html/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.html
index 3cf0af3..65a5e00 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.html
@@ -109,6 +109,9 @@ <h1>pantheonrl.algos.bc.ConstantLRSchedule<a class="headerlink" href="#pantheonr
 <p class="rubric">Methods</p>
 <table class="autosummary longtable docutils align-default">
 <tbody>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.bc.ConstantLRSchedule.set_lr" title="pantheonrl.algos.bc.ConstantLRSchedule.set_lr"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_lr</span></code></a></p></td>
+<td><p>Sets a new learning rate</p></td>
+</tr>
 </tbody>
 </table>
 <dl class="field-list simple">
@@ -122,6 +125,12 @@ <h1>pantheonrl.algos.bc.ConstantLRSchedule<a class="headerlink" href="#pantheonr
 <dd><p>Returns the constant learning rate.</p>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.bc.ConstantLRSchedule.set_lr">
+<span class="sig-name descname"><span class="pre">set_lr</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">new_lr</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/bc.html#ConstantLRSchedule.set_lr"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.bc.ConstantLRSchedule.set_lr" title="Link to this definition"></a></dt>
+<dd><p>Sets a new learning rate</p>
+</dd></dl>
+
 </dd></dl>
 
 </section>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.html b/docs_build/build/html/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.html
index 1707274..f7a89c7 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.html
@@ -124,6 +124,9 @@ <h1>pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress<a class="headerlink" hr
 <p class="rubric">Methods</p>
 <table class="autosummary longtable docutils align-default">
 <tbody>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.set_data_loader" title="pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.set_data_loader"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_data_loader</span></code></a></p></td>
+<td><p>Set the data loader to new value</p></td>
+</tr>
 </tbody>
 </table>
 <dl class="field-list simple">
@@ -137,6 +140,12 @@ <h1>pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress<a class="headerlink" hr
 </ul>
 </dd>
 </dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.set_data_loader">
+<span class="sig-name descname"><span class="pre">set_data_loader</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">new_data_loader</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/bc.html#EpochOrBatchIteratorWithProgress.set_data_loader"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.set_data_loader" title="Link to this definition"></a></dt>
+<dd><p>Set the data loader to new value</p>
+</dd></dl>
+
 </dd></dl>
 
 </section>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.bc.html b/docs_build/build/html/_autosummary/pantheonrl.algos.bc.html
index 080ae8b..3279b1f 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.bc.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.bc.html
@@ -99,8 +99,7 @@
 <p>Behavioural Cloning (BC).
 Trains policy by applying supervised learning to a fixed dataset of
 (observation, action) pairs generated by some expert demonstrator.</p>
-<p><a class="reference external" href="https://github.com/HumanCompatibleAI/imitation/blob/">https://github.com/HumanCompatibleAI/imitation/blob/</a>
-master/src/imitation/algorithms/bc.py</p>
+<p><a class="reference external" href="https://github.com/HumanCompatibleAI/imitation/blob/master/src/imitation/algorithms/bc.py">https://github.com/HumanCompatibleAI/imitation/blob/master/src/imitation/algorithms/bc.py</a></p>
 <p class="rubric">Functions</p>
 <table class="autosummary longtable docutils align-default">
 <tbody>
@@ -113,10 +112,10 @@
 <table class="autosummary longtable docutils align-default">
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.bc.BC.html#pantheonrl.algos.bc.BC" title="pantheonrl.algos.bc.BC"><code class="xref py py-obj docutils literal notranslate"><span class="pre">BC</span></code></a></p></td>
-<td><p>Behavioral cloning (BC). Recovers a policy via supervised learning on observation-action Tensor pairs, sampled from a Torch DataLoader or any Iterator that ducktypes <cite>torch.utils.data.DataLoader</cite>. Args:     observation_space: the observation space of the environment. action_space: the action space of the environment. policy_class: used to instantiate imitation policy. policy_kwargs: keyword arguments passed to policy's constructor. expert_data: If not None, then immediately call           <cite>self.set_expert_data_loader(expert_data)</cite> during           initialization. optimizer_cls: optimiser to use for supervised training. optimizer_kwargs: keyword arguments, excluding learning rate and           weight decay, for optimiser construction. ent_weight: scaling applied to the policy's entropy regularization. l2_weight: scaling applied to the policy's L2 regularization. device: name/identity of device to place policy on.</p></td>
+<td><p>Behavioral cloning (BC).</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.algos.bc.BCShell.html#pantheonrl.algos.bc.BCShell" title="pantheonrl.algos.bc.BCShell"><code class="xref py py-obj docutils literal notranslate"><span class="pre">BCShell</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Shell class for BC policy</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.bc.ConstantLRSchedule.html#pantheonrl.algos.bc.ConstantLRSchedule" title="pantheonrl.algos.bc.ConstantLRSchedule"><code class="xref py py-obj docutils literal notranslate"><span class="pre">ConstantLRSchedule</span></code></a></p></td>
 <td><p>A callable that returns a constant learning rate.</p></td>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.html b/docs_build/build/html/_autosummary/pantheonrl.algos.html
index 596bd35..971a102 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.html
@@ -91,17 +91,18 @@ <h1>pantheonrl.algos<a class="headerlink" href="#pantheonrl-algos" title="Link t
 <table class="autosummary longtable docutils align-default">
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.adap.html#module-pantheonrl.algos.adap" title="pantheonrl.algos.adap"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.algos.adap</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Implementation of the ADAP algorithm (Derek 2021).</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.algos.bc.html#module-pantheonrl.algos.bc" title="pantheonrl.algos.bc"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.algos.bc</span></code></a></p></td>
 <td><p>Behavioural Cloning (BC).</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.modular.html#module-pantheonrl.algos.modular" title="pantheonrl.algos.modular"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.algos.modular</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Implementation of the Modular algorithm (Shih 2021).</p></td>
 </tr>
 </tbody>
 </table>
-<span class="target" id="module-pantheonrl.algos"></span></section>
+<p id="module-pantheonrl.algos">Collection of algorithms in PantheonRL.</p>
+</section>
 
 
            </div>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.modular.html b/docs_build/build/html/_autosummary/pantheonrl.algos.modular.html
index 1fb5db1..1838742 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.modular.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.modular.html
@@ -96,14 +96,16 @@ <h1>pantheonrl.algos.modular<a class="headerlink" href="#pantheonrl-algos-modula
 <table class="autosummary longtable docutils align-default">
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.modular.learn.html#module-pantheonrl.algos.modular.learn" title="pantheonrl.algos.modular.learn"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.algos.modular.learn</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Implementation of the Modular Algorithm.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.algos.modular.policies.html#module-pantheonrl.algos.modular.policies" title="pantheonrl.algos.modular.policies"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.algos.modular.policies</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Implementation of the policy for the ModularAlgorithm</p></td>
 </tr>
 </tbody>
 </table>
-<span class="target" id="module-pantheonrl.algos.modular"></span></section>
+<p id="module-pantheonrl.algos.modular">Implementation of the Modular algorithm (Shih 2021).</p>
+<p>Paper: <a class="reference external" href="https://arxiv.org/abs/2104.02871">https://arxiv.org/abs/2104.02871</a></p>
+</section>
 
 
            </div>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.html b/docs_build/build/html/_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.html
index 14b76a3..6551546 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.html
@@ -97,7 +97,7 @@
 <h1>pantheonrl.algos.modular.learn.ModularAlgorithm<a class="headerlink" href="#pantheonrl-algos-modular-learn-modularalgorithm" title="Link to this heading"></a></h1>
 <dl class="py class">
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.learn.ModularAlgorithm">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">ModularAlgorithm</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">policy</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">env</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">learning_rate</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0003</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_steps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">2048</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">64</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_epochs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gamma</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.99</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gae_lambda</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.95</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">clip_range</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">clip_range_vf</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ent_coef</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vf_coef</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_grad_norm</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_sde</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sde_sample_freq</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">-1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_kl</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tensorboard_log</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">create_eval_env</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">policy_kwargs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">verbose</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'auto'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">_init_setup_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">marginal_reg_coef</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/learn.html#ModularAlgorithm"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.learn.ModularAlgorithm" title="Link to this definition"></a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">ModularAlgorithm</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">policy</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">env</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">learning_rate</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0003</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_steps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">2048</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">64</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_epochs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gamma</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.99</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gae_lambda</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.95</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">clip_range</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">clip_range_vf</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ent_coef</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vf_coef</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_grad_norm</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_sde</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sde_sample_freq</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">-1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_kl</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tensorboard_log</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">policy_kwargs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">verbose</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'auto'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">_init_setup_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">marginal_reg_coef</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/learn.html#ModularAlgorithm"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.learn.ModularAlgorithm" title="Link to this definition"></a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">OnPolicyAlgorithm</span></code></p>
 <p>The base for On-Policy algorithms (ex: A2C/PPO).</p>
 <p class="rubric">Methods</p>
@@ -193,7 +193,6 @@ <h1>pantheonrl.algos.modular.learn.ModularAlgorithm<a class="headerlink" href="#
 <li><p><strong>sde_sample_freq</strong> (<em>int</em>) – </p></li>
 <li><p><strong>target_kl</strong> (<em>float</em><em> | </em><em>None</em>) – </p></li>
 <li><p><strong>tensorboard_log</strong> (<em>str</em><em> | </em><em>None</em>) – </p></li>
-<li><p><strong>create_eval_env</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>policy_kwargs</strong> (<em>Dict</em><em>[</em><em>str</em><em>, </em><em>Any</em><em>] </em><em>| </em><em>None</em>) – </p></li>
 <li><p><strong>verbose</strong> (<em>int</em>) – </p></li>
 <li><p><strong>seed</strong> (<em>int</em><em> | </em><em>None</em>) – </p></li>
@@ -205,14 +204,14 @@ <h1>pantheonrl.algos.modular.learn.ModularAlgorithm<a class="headerlink" href="#
 </dl>
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.learn.ModularAlgorithm.collect_rollouts">
-<span class="sig-name descname"><span class="pre">collect_rollouts</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">env</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">callback</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rollout_buffer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_rollout_steps</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">partner_idx</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/learn.html#ModularAlgorithm.collect_rollouts"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.learn.ModularAlgorithm.collect_rollouts" title="Link to this definition"></a></dt>
+<span class="sig-name descname"><span class="pre">collect_rollouts</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">env</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">callback</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rollout_buffer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_rollout_steps</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">partner_idx</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/learn.html#ModularAlgorithm.collect_rollouts"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.learn.ModularAlgorithm.collect_rollouts" title="Link to this definition"></a></dt>
 <dd><p>Collect rollouts using the current policy and fill a <cite>RolloutBuffer</cite>.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>env</strong> (<em>VecEnv</em>) – (VecEnv) The training environment</p></li>
-<li><p><strong>callback</strong> (<em>BaseCallback</em>) – (BaseCallback) Callback that will be called at each step
-(and at the beginning and end of the rollout)</p></li>
+<li><p><strong>callback</strong> (<em>BaseCallback</em>) – (BaseCallback) Callback that will be called at each
+step (and at the beginning and end of the rollout)</p></li>
 <li><p><strong>rollout_buffer</strong> (<em>RolloutBuffer</em>) – (RolloutBuffer) Buffer to fill with rollouts</p></li>
 <li><p><strong>n_steps</strong> – (int) Number of experiences to collect per environment</p></li>
 <li><p><strong>n_rollout_steps</strong> (<em>int</em>) – </p></li>
@@ -220,8 +219,9 @@ <h1>pantheonrl.algos.modular.learn.ModularAlgorithm<a class="headerlink" href="#
 </ul>
 </dd>
 <dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>(bool) True if function returned with at least <cite>n_rollout_steps</cite>
-collected, False if callback terminated rollout prematurely.</p>
+<dd class="field-even"><p>(bool) True if function returned with at least
+<cite>n_rollout_steps</cite> collected, False if callback terminated rollout
+prematurely.</p>
 </dd>
 <dt class="field-odd">Return type<span class="colon">:</span></dt>
 <dd class="field-odd"><p>bool</p>
@@ -275,7 +275,7 @@ <h1>pantheonrl.algos.modular.learn.ModularAlgorithm<a class="headerlink" href="#
 
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.learn.ModularAlgorithm.learn">
-<span class="sig-name descname"><span class="pre">learn</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">total_timesteps</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">callback</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_interval</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eval_env</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eval_freq</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">-1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_eval_episodes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tb_log_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'OnPolicyAlgorithm'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eval_log_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reset_num_timesteps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/learn.html#ModularAlgorithm.learn"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.learn.ModularAlgorithm.learn" title="Link to this definition"></a></dt>
+<span class="sig-name descname"><span class="pre">learn</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">total_timesteps</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">callback</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_interval</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tb_log_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'OnPolicyAlgorithm'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reset_num_timesteps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">progress_bar</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/learn.html#ModularAlgorithm.learn"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.learn.ModularAlgorithm.learn" title="Link to this definition"></a></dt>
 <dd><p>Return a trained model.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
@@ -285,11 +285,7 @@ <h1>pantheonrl.algos.modular.learn.ModularAlgorithm<a class="headerlink" href="#
 <li><p><strong>log_interval</strong> (<em>int</em>) – The number of episodes before logging.</p></li>
 <li><p><strong>tb_log_name</strong> (<em>str</em>) – the name of the run for TensorBoard logging</p></li>
 <li><p><strong>reset_num_timesteps</strong> (<em>bool</em>) – whether or not to reset the current timestep number (used in logging)</p></li>
-<li><p><strong>progress_bar</strong> – Display a progress bar using tqdm and rich.</p></li>
-<li><p><strong>eval_env</strong> (<em>Env</em><em> | </em><em>VecEnv</em><em> | </em><em>None</em>) – </p></li>
-<li><p><strong>eval_freq</strong> (<em>int</em>) – </p></li>
-<li><p><strong>n_eval_episodes</strong> (<em>int</em>) – </p></li>
-<li><p><strong>eval_log_path</strong> (<em>str</em><em> | </em><em>None</em>) – </p></li>
+<li><p><strong>progress_bar</strong> (<em>bool</em>) – Display a progress bar using tqdm and rich.</p></li>
 </ul>
 </dd>
 <dt class="field-even">Returns<span class="colon">:</span></dt>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.modular.learn.html b/docs_build/build/html/_autosummary/pantheonrl.algos.modular.learn.html
index 5dd4516..7fa34ca 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.modular.learn.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.modular.learn.html
@@ -94,6 +94,7 @@
              
   <section id="module-pantheonrl.algos.modular.learn">
 <span id="pantheonrl-algos-modular-learn"></span><h1>pantheonrl.algos.modular.learn<a class="headerlink" href="#module-pantheonrl.algos.modular.learn" title="Link to this heading"></a></h1>
+<p>Implementation of the Modular Algorithm.</p>
 <p class="rubric">Classes</p>
 <table class="autosummary longtable docutils align-default">
 <tbody>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html b/docs_build/build/html/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html
index c8e995b..438e1f3 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html
@@ -97,7 +97,7 @@
 <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#pantheonrl-algos-modular-policies-modularpolicy" title="Link to this heading"></a></h1>
 <dl class="py class">
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">ModularPolicy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">observation_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lr_schedule</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device='auto'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">activation_fn=&lt;class</span> <span class="pre">'torch.nn.modules.activation.Tanh'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ortho_init=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_sde=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_std_init=0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">full_std=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sde_net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_expln=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">squash_output=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_class=&lt;class</span> <span class="pre">'stable_baselines3.common.torch_layers.FlattenExtractor'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">normalize_images=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_class=&lt;class</span> <span class="pre">'torch.optim.adam.Adam'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_partners=1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">partner_net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">baseline=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nomain=False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy" title="Link to this definition"></a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">ModularPolicy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">observation_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action_space</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lr_schedule</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">activation_fn=&lt;class</span> <span class="pre">'torch.nn.modules.activation.Tanh'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ortho_init=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_sde=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">log_std_init=0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">full_std=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sde_net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_expln=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">squash_output=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_class=&lt;class</span> <span class="pre">'stable_baselines3.common.torch_layers.FlattenExtractor'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">features_extractor_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">normalize_images=True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_class=&lt;class</span> <span class="pre">'torch.optim.adam.Adam'&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_kwargs=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_partners=1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">partner_net_arch=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">baseline=False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nomain=False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy" title="Link to this definition"></a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">BasePolicy</span></code></p>
 <p>Policy class for actor-critic algorithms (has both policy and value prediction).
 Used by A2C, PPO and the likes.
@@ -105,7 +105,7 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 :param action_space: (gym.spaces.Space) Action space
 :param lr_schedule: (Callable) Learning rate schedule (could be constant)
 :param net_arch: ([int or dict]) The specification of the policy and value networks.
-:param device: (str or th.device) Device on which the code should run.
+:param device: (str or torch.device) Device on which the code should run.
 :param activation_fn: (Type[nn.Module]) Activation function
 :param ortho_init: (bool) Whether to use or not orthogonal initialization
 :param use_sde: (bool) Whether to use State Dependent Exploration or not
@@ -130,15 +130,14 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 to pass to the feature extractor.</p></li>
 <li><p><strong>normalize_images</strong> (<em>bool</em>) – (bool) Whether to normalize images or not,
 dividing by 255.0 (True by default)</p></li>
-<li><p><strong>optimizer_class</strong> (<em>Type</em><em>[</em><em>Optimizer</em><em>]</em>) – (Type[th.optim.Optimizer]) The optimizer to use,
-<code class="docutils literal notranslate"><span class="pre">th.optim.Adam</span></code> by default</p></li>
+<li><p><strong>optimizer_class</strong> (<em>Type</em><em>[</em><em>Optimizer</em><em>]</em>) – (Type[torch.optim.Optimizer]) The optimizer to use,
+<code class="docutils literal notranslate"><span class="pre">torch.optim.Adam</span></code> by default</p></li>
 <li><p><strong>optimizer_kwargs</strong> (<em>Dict</em><em>[</em><em>str</em><em>, </em><em>Any</em><em>] </em><em>| </em><em>None</em>) – (Optional[Dict[str, Any]]) Additional keyword arguments,
 excluding the learning rate, to pass to the optimizer</p></li>
 <li><p><strong>observation_space</strong> (<em>Space</em>) – </p></li>
 <li><p><strong>action_space</strong> (<em>Space</em>) – </p></li>
 <li><p><strong>lr_schedule</strong> (<em>Callable</em><em>[</em><em>[</em><em>float</em><em>]</em><em>, </em><em>float</em><em>]</em>) – </p></li>
 <li><p><strong>net_arch</strong> (<em>List</em><em>[</em><em>int</em><em> | </em><em>Dict</em><em>[</em><em>str</em><em>, </em><em>List</em><em>[</em><em>int</em><em>]</em><em>]</em><em>] </em><em>| </em><em>None</em>) – </p></li>
-<li><p><strong>device</strong> (<em>device</em><em> | </em><em>str</em>) – </p></li>
 <li><p><strong>activation_fn</strong> (<em>Type</em><em>[</em><em>Module</em><em>]</em>) – </p></li>
 <li><p><strong>ortho_init</strong> (<em>bool</em>) – </p></li>
 <li><p><strong>use_sde</strong> (<em>bool</em>) – </p></li>
@@ -167,8 +166,8 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.buffers" title="pantheonrl.algos.modular.policies.ModularPolicy.buffers"><code class="xref py py-obj docutils literal notranslate"><span class="pre">buffers</span></code></a></p></td>
 <td><p>Returns an iterator over module buffers.</p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">build_mlp_action_value_net</span></code></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.build_mlp_action_value_net" title="pantheonrl.algos.modular.policies.ModularPolicy.build_mlp_action_value_net"><code class="xref py py-obj docutils literal notranslate"><span class="pre">build_mlp_action_value_net</span></code></a></p></td>
+<td><p>Build the action and value networks</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.children" title="pantheonrl.algos.modular.policies.ModularPolicy.children"><code class="xref py py-obj docutils literal notranslate"><span class="pre">children</span></code></a></p></td>
 <td><p>Returns an iterator over immediate children modules.</p></td>
@@ -179,8 +178,8 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.cuda" title="pantheonrl.algos.modular.policies.ModularPolicy.cuda"><code class="xref py py-obj docutils literal notranslate"><span class="pre">cuda</span></code></a></p></td>
 <td><p>Moves all model parameters and buffers to the GPU.</p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">do_init_weights</span></code></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.do_init_weights" title="pantheonrl.algos.modular.policies.ModularPolicy.do_init_weights"><code class="xref py py-obj docutils literal notranslate"><span class="pre">do_init_weights</span></code></a></p></td>
+<td><p>Initialize the weights</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.double" title="pantheonrl.algos.modular.policies.ModularPolicy.double"><code class="xref py py-obj docutils literal notranslate"><span class="pre">double</span></code></a></p></td>
 <td><p>Casts all floating point parameters and buffers to <code class="docutils literal notranslate"><span class="pre">double</span></code> datatype.</p></td>
@@ -189,7 +188,7 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 <td><p>Sets the module in evaluation mode.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.evaluate_actions" title="pantheonrl.algos.modular.policies.ModularPolicy.evaluate_actions"><code class="xref py py-obj docutils literal notranslate"><span class="pre">evaluate_actions</span></code></a></p></td>
-<td><p>Evaluate actions according to the current policy, given the observations. :param obs: (th.Tensor) :param actions: (th.Tensor) :return: (th.Tensor, th.Tensor, th.Tensor) estimated value, log likelihood of taking those actions     and entropy of the action distribution.</p></td>
+<td><p>Evaluate actions according to the current policy, given the observations. :param obs: (torch.Tensor) :param actions: (torch.Tensor) :return: (torch.Tensor, torch.Tensor, torch.Tensor) estimated value, log likelihood of     taking those actions and entropy of the action distribution.</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.extra_repr" title="pantheonrl.algos.modular.policies.ModularPolicy.extra_repr"><code class="xref py py-obj docutils literal notranslate"><span class="pre">extra_repr</span></code></a></p></td>
 <td><p>Set the extra representation of the module</p></td>
@@ -201,10 +200,10 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 <td><p>Casts all floating point parameters and buffers to <code class="docutils literal notranslate"><span class="pre">float</span></code> datatype.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.forward" title="pantheonrl.algos.modular.policies.ModularPolicy.forward"><code class="xref py py-obj docutils literal notranslate"><span class="pre">forward</span></code></a></p></td>
-<td><p>Forward pass in all the networks (actor and critic) :param obs: (th.Tensor) Observation :param deterministic: (bool) Whether to sample or use deterministic actions :return: (Tuple[th.Tensor, th.Tensor, th.Tensor]) action, value and log probability of the action</p></td>
+<td><p>Forward pass in all the networks (actor and critic) :param obs: (torch.Tensor) Observation :param deterministic: (bool) Whether to sample or use deterministic actions :return: (Tuple[torch.Tensor, torch.Tensor, torch.Tensor]) action, value     and log probability of the action</p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_action_logits_from_obs</span></code></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.get_action_logits_from_obs" title="pantheonrl.algos.modular.policies.ModularPolicy.get_action_logits_from_obs"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_action_logits_from_obs</span></code></a></p></td>
+<td><p>Get the action logits from the observation</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.get_buffer" title="pantheonrl.algos.modular.policies.ModularPolicy.get_buffer"><code class="xref py py-obj docutils literal notranslate"><span class="pre">get_buffer</span></code></a></p></td>
 <td><p>Returns the buffer given by <code class="docutils literal notranslate"><span class="pre">target</span></code> if it exists, otherwise throws an error.</p></td>
@@ -239,8 +238,8 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.load_state_dict" title="pantheonrl.algos.modular.policies.ModularPolicy.load_state_dict"><code class="xref py py-obj docutils literal notranslate"><span class="pre">load_state_dict</span></code></a></p></td>
 <td><p>Copies parameters and buffers from <a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.state_dict" title="pantheonrl.algos.modular.policies.ModularPolicy.state_dict"><code class="xref py py-attr docutils literal notranslate"><span class="pre">state_dict</span></code></a> into this module and its descendants.</p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">make_action_dist_net</span></code></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.make_action_dist_net" title="pantheonrl.algos.modular.policies.ModularPolicy.make_action_dist_net"><code class="xref py py-obj docutils literal notranslate"><span class="pre">make_action_dist_net</span></code></a></p></td>
+<td><p>Make the action distribution network</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.make_features_extractor" title="pantheonrl.algos.modular.policies.ModularPolicy.make_features_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">make_features_extractor</span></code></a></p></td>
 <td><p>Helper method to create a features extractor.</p></td>
@@ -263,8 +262,8 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.obs_to_tensor" title="pantheonrl.algos.modular.policies.ModularPolicy.obs_to_tensor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">obs_to_tensor</span></code></a></p></td>
 <td><p>Convert an input observation to a PyTorch tensor that can be fed to a model.</p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">overwrite_main</span></code></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.overwrite_main" title="pantheonrl.algos.modular.policies.ModularPolicy.overwrite_main"><code class="xref py py-obj docutils literal notranslate"><span class="pre">overwrite_main</span></code></a></p></td>
+<td><p>Overwrite the main weights</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.parameters" title="pantheonrl.algos.modular.policies.ModularPolicy.parameters"><code class="xref py py-obj docutils literal notranslate"><span class="pre">parameters</span></code></a></p></td>
 <td><p>Returns an iterator over module parameters.</p></td>
@@ -308,55 +307,52 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.requires_grad_" title="pantheonrl.algos.modular.policies.ModularPolicy.requires_grad_"><code class="xref py py-obj docutils literal notranslate"><span class="pre">requires_grad_</span></code></a></p></td>
 <td><p>Change if autograd should record operations on parameters in this module.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.reset_noise" title="pantheonrl.algos.modular.policies.ModularPolicy.reset_noise"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset_noise</span></code></a></p></td>
-<td><p>Sample new weights for the exploration matrix.</p></td>
-</tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.save" title="pantheonrl.algos.modular.policies.ModularPolicy.save"><code class="xref py py-obj docutils literal notranslate"><span class="pre">save</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.save" title="pantheonrl.algos.modular.policies.ModularPolicy.save"><code class="xref py py-obj docutils literal notranslate"><span class="pre">save</span></code></a></p></td>
 <td><p>Save model to a given location.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.scale_action" title="pantheonrl.algos.modular.policies.ModularPolicy.scale_action"><code class="xref py py-obj docutils literal notranslate"><span class="pre">scale_action</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.scale_action" title="pantheonrl.algos.modular.policies.ModularPolicy.scale_action"><code class="xref py py-obj docutils literal notranslate"><span class="pre">scale_action</span></code></a></p></td>
 <td><p>Rescale the action from [low, high] to [-1, 1] (no need for symmetric action space)</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.set_extra_state" title="pantheonrl.algos.modular.policies.ModularPolicy.set_extra_state"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_extra_state</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.set_extra_state" title="pantheonrl.algos.modular.policies.ModularPolicy.set_extra_state"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_extra_state</span></code></a></p></td>
 <td><p>This function is called from <a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.load_state_dict" title="pantheonrl.algos.modular.policies.ModularPolicy.load_state_dict"><code class="xref py py-func docutils literal notranslate"><span class="pre">load_state_dict()</span></code></a> to handle any extra state found within the <cite>state_dict</cite>.</p></td>
 </tr>
-<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_freeze_main</span></code></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_main" title="pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_main"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_freeze_main</span></code></a></p></td>
+<td><p>freeze / unfreeze main modules</p></td>
 </tr>
-<tr class="row-odd"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_freeze_module</span></code></p></td>
-<td><p></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_module" title="pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_module"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_freeze_module</span></code></a></p></td>
+<td><p>freeze / unfreeze the module networks</p></td>
 </tr>
-<tr class="row-even"><td><p><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_freeze_partner</span></code></p></td>
-<td><p></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_partner" title="pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_partner"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_freeze_partner</span></code></a></p></td>
+<td><p>freeze / unfreeze partner modules</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.set_training_mode" title="pantheonrl.algos.modular.policies.ModularPolicy.set_training_mode"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_training_mode</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.set_training_mode" title="pantheonrl.algos.modular.policies.ModularPolicy.set_training_mode"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_training_mode</span></code></a></p></td>
 <td><p>Put the policy in either training or evaluation mode.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.share_memory" title="pantheonrl.algos.modular.policies.ModularPolicy.share_memory"><code class="xref py py-obj docutils literal notranslate"><span class="pre">share_memory</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.share_memory" title="pantheonrl.algos.modular.policies.ModularPolicy.share_memory"><code class="xref py py-obj docutils literal notranslate"><span class="pre">share_memory</span></code></a></p></td>
 <td><p>See <code class="xref py py-meth docutils literal notranslate"><span class="pre">torch.Tensor.share_memory_()</span></code></p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.state_dict" title="pantheonrl.algos.modular.policies.ModularPolicy.state_dict"><code class="xref py py-obj docutils literal notranslate"><span class="pre">state_dict</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.state_dict" title="pantheonrl.algos.modular.policies.ModularPolicy.state_dict"><code class="xref py py-obj docutils literal notranslate"><span class="pre">state_dict</span></code></a></p></td>
 <td><p>Returns a dictionary containing references to the whole state of the module.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.to" title="pantheonrl.algos.modular.policies.ModularPolicy.to"><code class="xref py py-obj docutils literal notranslate"><span class="pre">to</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.to" title="pantheonrl.algos.modular.policies.ModularPolicy.to"><code class="xref py py-obj docutils literal notranslate"><span class="pre">to</span></code></a></p></td>
 <td><p>Moves and/or casts the parameters and buffers.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.to_empty" title="pantheonrl.algos.modular.policies.ModularPolicy.to_empty"><code class="xref py py-obj docutils literal notranslate"><span class="pre">to_empty</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.to_empty" title="pantheonrl.algos.modular.policies.ModularPolicy.to_empty"><code class="xref py py-obj docutils literal notranslate"><span class="pre">to_empty</span></code></a></p></td>
 <td><p>Moves the parameters and buffers to the specified device without copying storage.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.train" title="pantheonrl.algos.modular.policies.ModularPolicy.train"><code class="xref py py-obj docutils literal notranslate"><span class="pre">train</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.train" title="pantheonrl.algos.modular.policies.ModularPolicy.train"><code class="xref py py-obj docutils literal notranslate"><span class="pre">train</span></code></a></p></td>
 <td><p>Sets the module in training mode.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.type" title="pantheonrl.algos.modular.policies.ModularPolicy.type"><code class="xref py py-obj docutils literal notranslate"><span class="pre">type</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.type" title="pantheonrl.algos.modular.policies.ModularPolicy.type"><code class="xref py py-obj docutils literal notranslate"><span class="pre">type</span></code></a></p></td>
 <td><p>Casts all parameters and buffers to <code class="xref py py-attr docutils literal notranslate"><span class="pre">dst_type</span></code>.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.unscale_action" title="pantheonrl.algos.modular.policies.ModularPolicy.unscale_action"><code class="xref py py-obj docutils literal notranslate"><span class="pre">unscale_action</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.unscale_action" title="pantheonrl.algos.modular.policies.ModularPolicy.unscale_action"><code class="xref py py-obj docutils literal notranslate"><span class="pre">unscale_action</span></code></a></p></td>
 <td><p>Rescale the action from [-1, 1] to [low, high] (no need for symmetric action space)</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.xpu" title="pantheonrl.algos.modular.policies.ModularPolicy.xpu"><code class="xref py py-obj docutils literal notranslate"><span class="pre">xpu</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.xpu" title="pantheonrl.algos.modular.policies.ModularPolicy.xpu"><code class="xref py py-obj docutils literal notranslate"><span class="pre">xpu</span></code></a></p></td>
 <td><p>Moves all model parameters and buffers to the XPU.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.zero_grad" title="pantheonrl.algos.modular.policies.ModularPolicy.zero_grad"><code class="xref py py-obj docutils literal notranslate"><span class="pre">zero_grad</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.algos.modular.policies.ModularPolicy.zero_grad" title="pantheonrl.algos.modular.policies.ModularPolicy.zero_grad"><code class="xref py py-obj docutils literal notranslate"><span class="pre">zero_grad</span></code></a></p></td>
 <td><p>Sets gradients of all model parameters to zero.</p></td>
 </tr>
 </tbody>
@@ -524,6 +520,12 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.build_mlp_action_value_net">
+<span class="sig-name descname"><span class="pre">build_mlp_action_value_net</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_dim</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">net_arch</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy.build_mlp_action_value_net"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.build_mlp_action_value_net" title="Link to this definition"></a></dt>
+<dd><p>Build the action and value networks</p>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.children">
 <span class="sig-name descname"><span class="pre">children</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.children" title="Link to this definition"></a></dt>
@@ -606,6 +608,12 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.do_init_weights">
+<span class="sig-name descname"><span class="pre">do_init_weights</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">init_main</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">init_partner</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy.do_init_weights"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.do_init_weights" title="Link to this definition"></a></dt>
+<dd><p>Initialize the weights</p>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.double">
 <span class="sig-name descname"><span class="pre">double</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.double" title="Link to this definition"></a></dt>
@@ -658,11 +666,11 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 <span class="sig-name descname"><span class="pre">evaluate_actions</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">actions</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">partner_idx</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action_mask</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy.evaluate_actions"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.evaluate_actions" title="Link to this definition"></a></dt>
 <dd><p>Evaluate actions according to the current policy,
 given the observations.
-:param obs: (th.Tensor)
-:param actions: (th.Tensor)
-:return: (th.Tensor, th.Tensor, th.Tensor) estimated value, log likelihood of taking those actions</p>
+:param obs: (torch.Tensor)
+:param actions: (torch.Tensor)
+:return: (torch.Tensor, torch.Tensor, torch.Tensor) estimated value, log likelihood of</p>
 <blockquote>
-<div><p>and entropy of the action distribution.</p>
+<div><p>taking those actions and entropy of the action distribution.</p>
 </div></blockquote>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
@@ -749,9 +757,12 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.forward">
 <span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">partner_idx</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">deterministic</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.forward" title="Link to this definition"></a></dt>
 <dd><p>Forward pass in all the networks (actor and critic)
-:param obs: (th.Tensor) Observation
+:param obs: (torch.Tensor) Observation
 :param deterministic: (bool) Whether to sample or use deterministic actions
-:return: (Tuple[th.Tensor, th.Tensor, th.Tensor]) action, value and log probability of the action</p>
+:return: (Tuple[torch.Tensor, torch.Tensor, torch.Tensor]) action, value</p>
+<blockquote>
+<div><p>and log probability of the action</p>
+</div></blockquote>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
@@ -766,6 +777,24 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.get_action_logits_from_obs">
+<span class="sig-name descname"><span class="pre">get_action_logits_from_obs</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">partner_idx</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action_mask</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy.get_action_logits_from_obs"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.get_action_logits_from_obs" title="Link to this definition"></a></dt>
+<dd><p>Get the action logits from the observation</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>obs</strong> (<em>Tensor</em>) – </p></li>
+<li><p><strong>partner_idx</strong> (<em>int</em>) – </p></li>
+<li><p><strong>action_mask</strong> (<em>Tensor</em><em> | </em><em>None</em>) – </p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><em>Tensor</em></p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.get_buffer">
 <span class="sig-name descname"><span class="pre">get_buffer</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">target</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.get_buffer" title="Link to this definition"></a></dt>
@@ -1076,6 +1105,20 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.make_action_dist_net">
+<span class="sig-name descname"><span class="pre">make_action_dist_net</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">latent_dim_pi</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">latent_sde_dim</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy.make_action_dist_net"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.make_action_dist_net" title="Link to this definition"></a></dt>
+<dd><p>Make the action distribution network</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>latent_dim_pi</strong> (<em>int</em>) – </p></li>
+<li><p><strong>latent_sde_dim</strong> (<em>int</em>) – </p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.make_features_extractor">
 <span class="sig-name descname"><span class="pre">make_features_extractor</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.make_features_extractor" title="Link to this definition"></a></dt>
@@ -1282,6 +1325,12 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.overwrite_main">
+<span class="sig-name descname"><span class="pre">overwrite_main</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">other</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy.overwrite_main"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.overwrite_main" title="Link to this definition"></a></dt>
+<dd><p>Overwrite the main weights</p>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.parameters">
 <span class="sig-name descname"><span class="pre">parameters</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">recurse</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.parameters" title="Link to this definition"></a></dt>
@@ -1778,21 +1827,6 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 </dl>
 </dd></dl>
 
-<dl class="py method">
-<dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.reset_noise">
-<span class="sig-name descname"><span class="pre">reset_noise</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">n_envs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy.reset_noise"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.reset_noise" title="Link to this definition"></a></dt>
-<dd><p>Sample new weights for the exploration matrix.
-:param n_envs: (int)</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>n_envs</strong> (<em>int</em>) – </p>
-</dd>
-<dt class="field-even">Return type<span class="colon">:</span></dt>
-<dd class="field-even"><p>None</p>
-</dd>
-</dl>
-</dd></dl>
-
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.save">
 <span class="sig-name descname"><span class="pre">save</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.save" title="Link to this definition"></a></dt>
@@ -1843,6 +1877,24 @@ <h1>pantheonrl.algos.modular.policies.ModularPolicy<a class="headerlink" href="#
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_main">
+<span class="sig-name descname"><span class="pre">set_freeze_main</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">freeze</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy.set_freeze_main"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_main" title="Link to this definition"></a></dt>
+<dd><p>freeze / unfreeze main modules</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_module">
+<span class="sig-name descname"><span class="pre">set_freeze_module</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">module</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">freeze</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy.set_freeze_module"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_module" title="Link to this definition"></a></dt>
+<dd><p>freeze / unfreeze the module networks</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_partner">
+<span class="sig-name descname"><span class="pre">set_freeze_partner</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">freeze</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/algos/modular/policies.html#ModularPolicy.set_freeze_partner"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_partner" title="Link to this definition"></a></dt>
+<dd><p>freeze / unfreeze partner modules</p>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.algos.modular.policies.ModularPolicy.set_training_mode">
 <span class="sig-name descname"><span class="pre">set_training_mode</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.algos.modular.policies.ModularPolicy.set_training_mode" title="Link to this definition"></a></dt>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.algos.modular.policies.html b/docs_build/build/html/_autosummary/pantheonrl.algos.modular.policies.html
index 626686e..c773e7b 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.algos.modular.policies.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.algos.modular.policies.html
@@ -94,11 +94,12 @@
              
   <section id="module-pantheonrl.algos.modular.policies">
 <span id="pantheonrl-algos-modular-policies"></span><h1>pantheonrl.algos.modular.policies<a class="headerlink" href="#module-pantheonrl.algos.modular.policies" title="Link to this heading"></a></h1>
+<p>Implementation of the policy for the ModularAlgorithm</p>
 <p class="rubric">Classes</p>
 <table class="autosummary longtable docutils align-default">
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy" title="pantheonrl.algos.modular.policies.ModularPolicy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">ModularPolicy</span></code></a></p></td>
-<td><p>Policy class for actor-critic algorithms (has both policy and value prediction). Used by A2C, PPO and the likes. :param observation_space: (gym.spaces.Space) Observation space :param action_space: (gym.spaces.Space) Action space :param lr_schedule: (Callable) Learning rate schedule (could be constant) :param net_arch: ([int or dict]) The specification of the policy and value networks. :param device: (str or th.device) Device on which the code should run. :param activation_fn: (Type[nn.Module]) Activation function :param ortho_init: (bool) Whether to use or not orthogonal initialization :param use_sde: (bool) Whether to use State Dependent Exploration or not :param log_std_init: (float) Initial value for the log standard deviation :param full_std: (bool) Whether to use (n_features x n_actions) parameters     for the std instead of only (n_features,) when using gSDE :param sde_net_arch: ([int]) Network architecture for extracting features     when using gSDE. If None, the latent features from the policy will be used. Pass an empty list to use the states as features. :param use_expln: (bool) Use <code class="docutils literal notranslate"><span class="pre">expln()</span></code> function instead of <code class="docutils literal notranslate"><span class="pre">exp()</span></code> to ensure     a positive standard deviation (cf paper). It allows to keep variance     above zero and prevent it from growing too fast. In practice, <code class="docutils literal notranslate"><span class="pre">exp()</span></code> is usually enough. :param squash_output: (bool) Whether to squash the output using a tanh function,     this allows to ensure boundaries when using gSDE. :param features_extractor_class: (Type[BaseFeaturesExtractor]) Features extractor to use. :param features_extractor_kwargs: (Optional[Dict[str, Any]]) Keyword arguments     to pass to the feature extractor. :param normalize_images: (bool) Whether to normalize images or not,      dividing by 255.0 (True by default) :param optimizer_class: (Type[th.optim.Optimizer]) The optimizer to use,     <code class="docutils literal notranslate"><span class="pre">th.optim.Adam</span></code> by default :param optimizer_kwargs: (Optional[Dict[str, Any]]) Additional keyword arguments,     excluding the learning rate, to pass to the optimizer.</p></td>
+<td><p>Policy class for actor-critic algorithms (has both policy and value prediction). Used by A2C, PPO and the likes. :param observation_space: (gym.spaces.Space) Observation space :param action_space: (gym.spaces.Space) Action space :param lr_schedule: (Callable) Learning rate schedule (could be constant) :param net_arch: ([int or dict]) The specification of the policy and value networks. :param device: (str or torch.device) Device on which the code should run. :param activation_fn: (Type[nn.Module]) Activation function :param ortho_init: (bool) Whether to use or not orthogonal initialization :param use_sde: (bool) Whether to use State Dependent Exploration or not :param log_std_init: (float) Initial value for the log standard deviation :param full_std: (bool) Whether to use (n_features x n_actions) parameters     for the std instead of only (n_features,) when using gSDE :param sde_net_arch: ([int]) Network architecture for extracting features     when using gSDE. If None, the latent features from the policy will be used. Pass an empty list to use the states as features. :param use_expln: (bool) Use <code class="docutils literal notranslate"><span class="pre">expln()</span></code> function instead of <code class="docutils literal notranslate"><span class="pre">exp()</span></code> to ensure     a positive standard deviation (cf paper). It allows to keep variance     above zero and prevent it from growing too fast. In practice, <code class="docutils literal notranslate"><span class="pre">exp()</span></code> is usually enough. :param squash_output: (bool) Whether to squash the output using a tanh function,     this allows to ensure boundaries when using gSDE. :param features_extractor_class: (Type[BaseFeaturesExtractor]) Features extractor to use. :param features_extractor_kwargs: (Optional[Dict[str, Any]]) Keyword arguments     to pass to the feature extractor. :param normalize_images: (bool) Whether to normalize images or not,      dividing by 255.0 (True by default) :param optimizer_class: (Type[torch.optim.Optimizer]) The optimizer to use,     <code class="docutils literal notranslate"><span class="pre">torch.optim.Adam</span></code> by default :param optimizer_kwargs: (Optional[Dict[str, Any]]) Additional keyword arguments,     excluding the learning rate, to pass to the optimizer.</p></td>
 </tr>
 </tbody>
 </table>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.common.html b/docs_build/build/html/_autosummary/pantheonrl.common.html
index a4e34bf..aa34e79 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.common.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.common.html
@@ -113,7 +113,8 @@ <h1>pantheonrl.common<a class="headerlink" href="#pantheonrl-common" title="Link
 </tr>
 </tbody>
 </table>
-<span class="target" id="module-pantheonrl.common"></span></section>
+<p id="module-pantheonrl.common">The core classes in PantheonRL.</p>
+</section>
 
 
            </div>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.html b/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.html
index c4f61b7..f3ddeb2 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.html
@@ -150,28 +150,31 @@ <h1>pantheonrl.common.multiagentenv.MultiAgentEnv<a class="headerlink" href="#pa
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.render" title="pantheonrl.common.multiagentenv.MultiAgentEnv.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.resample_random" title="pantheonrl.common.multiagentenv.MultiAgentEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.resample_null" title="pantheonrl.common.multiagentenv.MultiAgentEnv.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.resample_random" title="pantheonrl.common.multiagentenv.MultiAgentEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.resample_round_robin" title="pantheonrl.common.multiagentenv.MultiAgentEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.resample_round_robin" title="pantheonrl.common.multiagentenv.MultiAgentEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.reset" title="pantheonrl.common.multiagentenv.MultiAgentEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.reset" title="pantheonrl.common.multiagentenv.MultiAgentEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_extractor" title="pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_extractor" title="pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_ind" title="pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_ind" title="pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.set_partnerid" title="pantheonrl.common.multiagentenv.MultiAgentEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.set_partnerid" title="pantheonrl.common.multiagentenv.MultiAgentEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.set_resample_policy" title="pantheonrl.common.multiagentenv.MultiAgentEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.set_resample_policy" title="pantheonrl.common.multiagentenv.MultiAgentEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.step" title="pantheonrl.common.multiagentenv.MultiAgentEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.step" title="pantheonrl.common.multiagentenv.MultiAgentEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
 </tbody>
@@ -390,6 +393,17 @@ <h1>pantheonrl.common.multiagentenv.MultiAgentEnv<a class="headerlink" href="#pa
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.common.multiagentenv.MultiAgentEnv.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/common/multiagentenv.html#MultiAgentEnv.resample_null"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.common.multiagentenv.MultiAgentEnv.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pantheonrl/common/multiagentenv.html#MultiAgentEnv.resample_random"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#pantheonrl.common.multiagentenv.MultiAgentEnv.resample_random" title="Link to this definition"></a></dt>
@@ -489,7 +503,7 @@ <h1>pantheonrl.common.multiagentenv.MultiAgentEnv<a class="headerlink" href="#pa
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.html b/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.html
index 24d1662..c1f0470 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.html
@@ -151,28 +151,31 @@ <h1>pantheonrl.common.multiagentenv.SimultaneousEnv<a class="headerlink" href="#
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.render" title="pantheonrl.common.multiagentenv.SimultaneousEnv.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.resample_random" title="pantheonrl.common.multiagentenv.SimultaneousEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.resample_null" title="pantheonrl.common.multiagentenv.SimultaneousEnv.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.resample_random" title="pantheonrl.common.multiagentenv.SimultaneousEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.resample_round_robin" title="pantheonrl.common.multiagentenv.SimultaneousEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.resample_round_robin" title="pantheonrl.common.multiagentenv.SimultaneousEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.reset" title="pantheonrl.common.multiagentenv.SimultaneousEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.reset" title="pantheonrl.common.multiagentenv.SimultaneousEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_extractor" title="pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_extractor" title="pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_ind" title="pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_ind" title="pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.set_partnerid" title="pantheonrl.common.multiagentenv.SimultaneousEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.set_partnerid" title="pantheonrl.common.multiagentenv.SimultaneousEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.set_resample_policy" title="pantheonrl.common.multiagentenv.SimultaneousEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.set_resample_policy" title="pantheonrl.common.multiagentenv.SimultaneousEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.step" title="pantheonrl.common.multiagentenv.SimultaneousEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.step" title="pantheonrl.common.multiagentenv.SimultaneousEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
 </tbody>
@@ -432,6 +435,17 @@ <h1>pantheonrl.common.multiagentenv.SimultaneousEnv<a class="headerlink" href="#
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.common.multiagentenv.SimultaneousEnv.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.common.multiagentenv.SimultaneousEnv.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.multiagentenv.SimultaneousEnv.resample_random" title="Link to this definition"></a></dt>
@@ -531,7 +545,7 @@ <h1>pantheonrl.common.multiagentenv.SimultaneousEnv<a class="headerlink" href="#
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.html b/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.html
index 57a5ca3..ca6e55c 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.html
@@ -157,28 +157,31 @@ <h1>pantheonrl.common.multiagentenv.TurnBasedEnv<a class="headerlink" href="#pan
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.render" title="pantheonrl.common.multiagentenv.TurnBasedEnv.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.resample_random" title="pantheonrl.common.multiagentenv.TurnBasedEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.resample_null" title="pantheonrl.common.multiagentenv.TurnBasedEnv.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.resample_random" title="pantheonrl.common.multiagentenv.TurnBasedEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.resample_round_robin" title="pantheonrl.common.multiagentenv.TurnBasedEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.resample_round_robin" title="pantheonrl.common.multiagentenv.TurnBasedEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.reset" title="pantheonrl.common.multiagentenv.TurnBasedEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.reset" title="pantheonrl.common.multiagentenv.TurnBasedEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_extractor" title="pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_extractor" title="pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_ind" title="pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_ind" title="pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.set_partnerid" title="pantheonrl.common.multiagentenv.TurnBasedEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.set_partnerid" title="pantheonrl.common.multiagentenv.TurnBasedEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.set_resample_policy" title="pantheonrl.common.multiagentenv.TurnBasedEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.set_resample_policy" title="pantheonrl.common.multiagentenv.TurnBasedEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.step" title="pantheonrl.common.multiagentenv.TurnBasedEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.step" title="pantheonrl.common.multiagentenv.TurnBasedEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
 </tbody>
@@ -462,6 +465,17 @@ <h1>pantheonrl.common.multiagentenv.TurnBasedEnv<a class="headerlink" href="#pan
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.common.multiagentenv.TurnBasedEnv.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.common.multiagentenv.TurnBasedEnv.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.multiagentenv.TurnBasedEnv.resample_random" title="Link to this definition"></a></dt>
@@ -561,7 +575,7 @@ <h1>pantheonrl.common.multiagentenv.TurnBasedEnv<a class="headerlink" href="#pan
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.html b/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.html
index ca59606..54e44a6 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.html
@@ -154,28 +154,31 @@ <h1>pantheonrl.common.wrappers.SimultaneousFrameStack<a class="headerlink" href=
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.render" title="pantheonrl.common.wrappers.SimultaneousFrameStack.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.resample_random" title="pantheonrl.common.wrappers.SimultaneousFrameStack.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.resample_null" title="pantheonrl.common.wrappers.SimultaneousFrameStack.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.resample_random" title="pantheonrl.common.wrappers.SimultaneousFrameStack.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.resample_round_robin" title="pantheonrl.common.wrappers.SimultaneousFrameStack.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.resample_round_robin" title="pantheonrl.common.wrappers.SimultaneousFrameStack.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.reset" title="pantheonrl.common.wrappers.SimultaneousFrameStack.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.reset" title="pantheonrl.common.wrappers.SimultaneousFrameStack.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_extractor" title="pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_extractor" title="pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_ind" title="pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_ind" title="pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.set_partnerid" title="pantheonrl.common.wrappers.SimultaneousFrameStack.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.set_partnerid" title="pantheonrl.common.wrappers.SimultaneousFrameStack.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.set_resample_policy" title="pantheonrl.common.wrappers.SimultaneousFrameStack.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.set_resample_policy" title="pantheonrl.common.wrappers.SimultaneousFrameStack.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.step" title="pantheonrl.common.wrappers.SimultaneousFrameStack.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.step" title="pantheonrl.common.wrappers.SimultaneousFrameStack.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
 </tbody>
@@ -435,6 +438,17 @@ <h1>pantheonrl.common.wrappers.SimultaneousFrameStack<a class="headerlink" href=
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.common.wrappers.SimultaneousFrameStack.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.common.wrappers.SimultaneousFrameStack.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.wrappers.SimultaneousFrameStack.resample_random" title="Link to this definition"></a></dt>
@@ -534,7 +548,7 @@ <h1>pantheonrl.common.wrappers.SimultaneousFrameStack<a class="headerlink" href=
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.html b/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.html
index 2c19cbc..41fe48d 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.html
@@ -152,31 +152,34 @@ <h1>pantheonrl.common.wrappers.SimultaneousRecorder<a class="headerlink" href="#
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.render" title="pantheonrl.common.wrappers.SimultaneousRecorder.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.resample_random" title="pantheonrl.common.wrappers.SimultaneousRecorder.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.resample_null" title="pantheonrl.common.wrappers.SimultaneousRecorder.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.resample_random" title="pantheonrl.common.wrappers.SimultaneousRecorder.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.resample_round_robin" title="pantheonrl.common.wrappers.SimultaneousRecorder.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.resample_round_robin" title="pantheonrl.common.wrappers.SimultaneousRecorder.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.reset" title="pantheonrl.common.wrappers.SimultaneousRecorder.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.reset" title="pantheonrl.common.wrappers.SimultaneousRecorder.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_extractor" title="pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_extractor" title="pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_ind" title="pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_ind" title="pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.set_partnerid" title="pantheonrl.common.wrappers.SimultaneousRecorder.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.set_partnerid" title="pantheonrl.common.wrappers.SimultaneousRecorder.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.set_resample_policy" title="pantheonrl.common.wrappers.SimultaneousRecorder.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.set_resample_policy" title="pantheonrl.common.wrappers.SimultaneousRecorder.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.step" title="pantheonrl.common.wrappers.SimultaneousRecorder.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.step" title="pantheonrl.common.wrappers.SimultaneousRecorder.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.write_transition" title="pantheonrl.common.wrappers.SimultaneousRecorder.write_transition"><code class="xref py py-obj docutils literal notranslate"><span class="pre">write_transition</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.SimultaneousRecorder.write_transition" title="pantheonrl.common.wrappers.SimultaneousRecorder.write_transition"><code class="xref py py-obj docutils literal notranslate"><span class="pre">write_transition</span></code></a></p></td>
 <td><p>Write transition to a given file.</p></td>
 </tr>
 </tbody>
@@ -436,6 +439,17 @@ <h1>pantheonrl.common.wrappers.SimultaneousRecorder<a class="headerlink" href="#
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.common.wrappers.SimultaneousRecorder.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.wrappers.SimultaneousRecorder.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.common.wrappers.SimultaneousRecorder.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.wrappers.SimultaneousRecorder.resample_random" title="Link to this definition"></a></dt>
@@ -535,7 +549,7 @@ <h1>pantheonrl.common.wrappers.SimultaneousRecorder<a class="headerlink" href="#
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.html b/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.html
index 2c91fde..3d586b5 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.html
@@ -161,28 +161,31 @@ <h1>pantheonrl.common.wrappers.TurnBasedFrameStack<a class="headerlink" href="#p
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.render" title="pantheonrl.common.wrappers.TurnBasedFrameStack.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.resample_random" title="pantheonrl.common.wrappers.TurnBasedFrameStack.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.resample_null" title="pantheonrl.common.wrappers.TurnBasedFrameStack.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.resample_random" title="pantheonrl.common.wrappers.TurnBasedFrameStack.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.resample_round_robin" title="pantheonrl.common.wrappers.TurnBasedFrameStack.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.resample_round_robin" title="pantheonrl.common.wrappers.TurnBasedFrameStack.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.reset" title="pantheonrl.common.wrappers.TurnBasedFrameStack.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.reset" title="pantheonrl.common.wrappers.TurnBasedFrameStack.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_extractor" title="pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_extractor" title="pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_ind" title="pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_ind" title="pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.set_partnerid" title="pantheonrl.common.wrappers.TurnBasedFrameStack.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.set_partnerid" title="pantheonrl.common.wrappers.TurnBasedFrameStack.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.set_resample_policy" title="pantheonrl.common.wrappers.TurnBasedFrameStack.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.set_resample_policy" title="pantheonrl.common.wrappers.TurnBasedFrameStack.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.step" title="pantheonrl.common.wrappers.TurnBasedFrameStack.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.step" title="pantheonrl.common.wrappers.TurnBasedFrameStack.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
 </tbody>
@@ -466,6 +469,17 @@ <h1>pantheonrl.common.wrappers.TurnBasedFrameStack<a class="headerlink" href="#p
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.common.wrappers.TurnBasedFrameStack.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.common.wrappers.TurnBasedFrameStack.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.wrappers.TurnBasedFrameStack.resample_random" title="Link to this definition"></a></dt>
@@ -565,7 +579,7 @@ <h1>pantheonrl.common.wrappers.TurnBasedFrameStack<a class="headerlink" href="#p
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.html b/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.html
index 673b60c..edd66d4 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.html
@@ -155,31 +155,34 @@ <h1>pantheonrl.common.wrappers.TurnBasedRecorder<a class="headerlink" href="#pan
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.render" title="pantheonrl.common.wrappers.TurnBasedRecorder.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.resample_random" title="pantheonrl.common.wrappers.TurnBasedRecorder.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.resample_null" title="pantheonrl.common.wrappers.TurnBasedRecorder.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.resample_random" title="pantheonrl.common.wrappers.TurnBasedRecorder.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.resample_round_robin" title="pantheonrl.common.wrappers.TurnBasedRecorder.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.resample_round_robin" title="pantheonrl.common.wrappers.TurnBasedRecorder.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.reset" title="pantheonrl.common.wrappers.TurnBasedRecorder.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.reset" title="pantheonrl.common.wrappers.TurnBasedRecorder.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_extractor" title="pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_extractor" title="pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_ind" title="pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_ind" title="pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.set_partnerid" title="pantheonrl.common.wrappers.TurnBasedRecorder.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.set_partnerid" title="pantheonrl.common.wrappers.TurnBasedRecorder.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.set_resample_policy" title="pantheonrl.common.wrappers.TurnBasedRecorder.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.set_resample_policy" title="pantheonrl.common.wrappers.TurnBasedRecorder.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.step" title="pantheonrl.common.wrappers.TurnBasedRecorder.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.step" title="pantheonrl.common.wrappers.TurnBasedRecorder.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.write_transition" title="pantheonrl.common.wrappers.TurnBasedRecorder.write_transition"><code class="xref py py-obj docutils literal notranslate"><span class="pre">write_transition</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.common.wrappers.TurnBasedRecorder.write_transition" title="pantheonrl.common.wrappers.TurnBasedRecorder.write_transition"><code class="xref py py-obj docutils literal notranslate"><span class="pre">write_transition</span></code></a></p></td>
 <td><p>Write transition to a given file.</p></td>
 </tr>
 </tbody>
@@ -454,6 +457,17 @@ <h1>pantheonrl.common.wrappers.TurnBasedRecorder<a class="headerlink" href="#pan
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.common.wrappers.TurnBasedRecorder.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.wrappers.TurnBasedRecorder.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.common.wrappers.TurnBasedRecorder.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.common.wrappers.TurnBasedRecorder.resample_random" title="Link to this definition"></a></dt>
@@ -553,7 +567,7 @@ <h1>pantheonrl.common.wrappers.TurnBasedRecorder<a class="headerlink" href="#pan
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.html b/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.html
index 8f7e20c..3fc8fac 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.html
@@ -142,28 +142,31 @@ <h1>pantheonrl.envs.blockworldgym.blockworld.BlockEnv<a class="headerlink" href=
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.render" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_random" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_null" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_random" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_round_robin" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_round_robin" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.reset" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.reset" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_extractor" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_extractor" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_ind" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_ind" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_partnerid" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_partnerid" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_resample_policy" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_resample_policy" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.step" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.step" title="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
 </tbody>
@@ -433,6 +436,17 @@ <h1>pantheonrl.envs.blockworldgym.blockworld.BlockEnv<a class="headerlink" href=
 </div>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_random" title="Link to this definition"></a></dt>
@@ -532,7 +546,7 @@ <h1>pantheonrl.envs.blockworldgym.blockworld.BlockEnv<a class="headerlink" href=
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.html b/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.html
index 0930609..e6d5315 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.html
@@ -112,7 +112,9 @@ <h1>pantheonrl.envs.blockworldgym<a class="headerlink" href="#pantheonrl-envs-bl
 </tr>
 </tbody>
 </table>
-<span class="target" id="module-pantheonrl.envs.blockworldgym"></span></section>
+<p id="module-pantheonrl.envs.blockworldgym">Implementation of block world environments (McCarthy 2021)</p>
+<p>Paper: <a class="reference external" href="https://cogtoolslab.github.io/pdf/mccarthy_cogsci_2021b.pdf">https://cogtoolslab.github.io/pdf/mccarthy_cogsci_2021b.pdf</a></p>
+</section>
 
 
            </div>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.html b/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.html
index b18cd45..40448fc 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.html
@@ -142,28 +142,31 @@ <h1>pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv<a class="heade
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.render" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_random" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_null" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_random" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_round_robin" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_round_robin" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.reset" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.reset" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_extractor" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_extractor" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_ind" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_ind" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_partnerid" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_partnerid" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_resample_policy" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_resample_policy" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.step" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.step" title="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
 </tbody>
@@ -438,6 +441,17 @@ <h1>pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv<a class="heade
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_random" title="Link to this definition"></a></dt>
@@ -537,7 +551,7 @@ <h1>pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv<a class="heade
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.envs.html b/docs_build/build/html/_autosummary/pantheonrl.envs.html
index 41381a0..521ba3d 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.envs.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.envs.html
@@ -92,16 +92,16 @@ <h1>pantheonrl.envs<a class="headerlink" href="#pantheonrl-envs" title="Link to
 <table class="autosummary longtable docutils align-default">
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.envs.blockworldgym.html#module-pantheonrl.envs.blockworldgym" title="pantheonrl.envs.blockworldgym"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.envs.blockworldgym</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Implementation of block world environments (McCarthy 2021)</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.envs.liargym.html#module-pantheonrl.envs.liargym" title="pantheonrl.envs.liargym"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.envs.liargym</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Implementation of the Liar's Dice game.</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.envs.pettingzoo.html#module-pantheonrl.envs.pettingzoo" title="pantheonrl.envs.pettingzoo"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.envs.pettingzoo</span></code></a></p></td>
 <td><p>Simple wrapper for Petting Zoo environments.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.envs.rpsgym.html#module-pantheonrl.envs.rpsgym" title="pantheonrl.envs.rpsgym"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.envs.rpsgym</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Implementation of the rock-paper-scissors game.</p></td>
 </tr>
 </tbody>
 </table>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.envs.liargym.html b/docs_build/build/html/_autosummary/pantheonrl.envs.liargym.html
index 3dcba0d..5d2d423 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.envs.liargym.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.envs.liargym.html
@@ -100,7 +100,8 @@ <h1>pantheonrl.envs.liargym<a class="headerlink" href="#pantheonrl-envs-liargym"
 </tr>
 </tbody>
 </table>
-<span class="target" id="module-pantheonrl.envs.liargym"></span></section>
+<p id="module-pantheonrl.envs.liargym">Implementation of the Liar’s Dice game.</p>
+</section>
 
 
            </div>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.html b/docs_build/build/html/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.html
index 857fdf9..c12b52a 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.html
@@ -141,28 +141,31 @@ <h1>pantheonrl.envs.liargym.liar.LiarEnv<a class="headerlink" href="#pantheonrl-
 <tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.render" title="pantheonrl.envs.liargym.liar.LiarEnv.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.resample_random" title="pantheonrl.envs.liargym.liar.LiarEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.resample_null" title="pantheonrl.envs.liargym.liar.LiarEnv.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.resample_random" title="pantheonrl.envs.liargym.liar.LiarEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.resample_round_robin" title="pantheonrl.envs.liargym.liar.LiarEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.resample_round_robin" title="pantheonrl.envs.liargym.liar.LiarEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.reset" title="pantheonrl.envs.liargym.liar.LiarEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.reset" title="pantheonrl.envs.liargym.liar.LiarEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.set_ego_extractor" title="pantheonrl.envs.liargym.liar.LiarEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.set_ego_extractor" title="pantheonrl.envs.liargym.liar.LiarEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.set_ego_ind" title="pantheonrl.envs.liargym.liar.LiarEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.set_ego_ind" title="pantheonrl.envs.liargym.liar.LiarEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.set_partnerid" title="pantheonrl.envs.liargym.liar.LiarEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.set_partnerid" title="pantheonrl.envs.liargym.liar.LiarEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.set_resample_policy" title="pantheonrl.envs.liargym.liar.LiarEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.set_resample_policy" title="pantheonrl.envs.liargym.liar.LiarEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.step" title="pantheonrl.envs.liargym.liar.LiarEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.liargym.liar.LiarEnv.step" title="pantheonrl.envs.liargym.liar.LiarEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
 </tbody>
@@ -437,6 +440,17 @@ <h1>pantheonrl.envs.liargym.liar.LiarEnv<a class="headerlink" href="#pantheonrl-
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.envs.liargym.liar.LiarEnv.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.envs.liargym.liar.LiarEnv.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.envs.liargym.liar.LiarEnv.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.envs.liargym.liar.LiarEnv.resample_random" title="Link to this definition"></a></dt>
@@ -536,7 +550,7 @@ <h1>pantheonrl.envs.liargym.liar.LiarEnv<a class="headerlink" href="#pantheonrl-
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.html b/docs_build/build/html/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.html
index 487b40a..1f69f35 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.html
@@ -137,28 +137,31 @@ <h1>pantheonrl.envs.pettingzoo.PettingZooAECWrapper<a class="headerlink" href="#
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.render" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_random" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_null" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_random" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_round_robin" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_round_robin" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.reset" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.reset" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_extractor" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_extractor" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_ind" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_ind" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_partnerid" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_partnerid" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_resample_policy" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_resample_policy" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.step" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.step" title="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
 </tbody>
@@ -377,6 +380,17 @@ <h1>pantheonrl.envs.pettingzoo.PettingZooAECWrapper<a class="headerlink" href="#
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_random" title="Link to this definition"></a></dt>
@@ -476,7 +490,7 @@ <h1>pantheonrl.envs.pettingzoo.PettingZooAECWrapper<a class="headerlink" href="#
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.envs.rpsgym.html b/docs_build/build/html/_autosummary/pantheonrl.envs.rpsgym.html
index f823ccc..f09f5bc 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.envs.rpsgym.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.envs.rpsgym.html
@@ -100,7 +100,8 @@ <h1>pantheonrl.envs.rpsgym<a class="headerlink" href="#pantheonrl-envs-rpsgym" t
 </tr>
 </tbody>
 </table>
-<span class="target" id="module-pantheonrl.envs.rpsgym"></span></section>
+<p id="module-pantheonrl.envs.rpsgym">Implementation of the rock-paper-scissors game.</p>
+</section>
 
 
            </div>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.html b/docs_build/build/html/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.html
index 44a4cc2..3b59ccb 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.html
@@ -137,28 +137,31 @@ <h1>pantheonrl.envs.rpsgym.rps.RPSEnv<a class="headerlink" href="#pantheonrl-env
 <tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.render" title="pantheonrl.envs.rpsgym.rps.RPSEnv.render"><code class="xref py py-obj docutils literal notranslate"><span class="pre">render</span></code></a></p></td>
 <td><p>Compute the render frames as specified by <code class="xref py py-attr docutils literal notranslate"><span class="pre">render_mode</span></code> during the initialization of the environment.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.resample_random" title="pantheonrl.envs.rpsgym.rps.RPSEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.resample_null" title="pantheonrl.envs.rpsgym.rps.RPSEnv.resample_null"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_null</span></code></a></p></td>
+<td><p>Do not resample each partner policy</p></td>
+</tr>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.resample_random" title="pantheonrl.envs.rpsgym.rps.RPSEnv.resample_random"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_random</span></code></a></p></td>
 <td><p>Randomly resamples each partner policy</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.resample_round_robin" title="pantheonrl.envs.rpsgym.rps.RPSEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.resample_round_robin" title="pantheonrl.envs.rpsgym.rps.RPSEnv.resample_round_robin"><code class="xref py py-obj docutils literal notranslate"><span class="pre">resample_round_robin</span></code></a></p></td>
 <td><p>Sets the partner policy to the next option on the list for round-robin sampling.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.reset" title="pantheonrl.envs.rpsgym.rps.RPSEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.reset" title="pantheonrl.envs.rpsgym.rps.RPSEnv.reset"><code class="xref py py-obj docutils literal notranslate"><span class="pre">reset</span></code></a></p></td>
 <td><p>Reset environment to an initial state and return the first observation for the ego agent.</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_extractor" title="pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_extractor" title="pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_extractor"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_extractor</span></code></a></p></td>
 <td><p>Sets the function to extract Observation for the ego agent.</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_ind" title="pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_ind" title="pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_ind"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_ego_ind</span></code></a></p></td>
 <td><p>Sets the current player number for the ego agent</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.set_partnerid" title="pantheonrl.envs.rpsgym.rps.RPSEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.set_partnerid" title="pantheonrl.envs.rpsgym.rps.RPSEnv.set_partnerid"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_partnerid</span></code></a></p></td>
 <td><p>Set the current partner agent to use</p></td>
 </tr>
-<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.set_resample_policy" title="pantheonrl.envs.rpsgym.rps.RPSEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
+<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.set_resample_policy" title="pantheonrl.envs.rpsgym.rps.RPSEnv.set_resample_policy"><code class="xref py py-obj docutils literal notranslate"><span class="pre">set_resample_policy</span></code></a></p></td>
 <td><p>Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</p></td>
 </tr>
-<tr class="row-odd"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.step" title="pantheonrl.envs.rpsgym.rps.RPSEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
+<tr class="row-even"><td><p><a class="reference internal" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.step" title="pantheonrl.envs.rpsgym.rps.RPSEnv.step"><code class="xref py py-obj docutils literal notranslate"><span class="pre">step</span></code></a></p></td>
 <td><p>Run one timestep from the perspective of the ego-agent.</p></td>
 </tr>
 </tbody>
@@ -412,6 +415,17 @@ <h1>pantheonrl.envs.rpsgym.rps.RPSEnv<a class="headerlink" href="#pantheonrl-env
 </dl>
 </dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="pantheonrl.envs.rpsgym.rps.RPSEnv.resample_null">
+<span class="sig-name descname"><span class="pre">resample_null</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.resample_null" title="Link to this definition"></a></dt>
+<dd><p>Do not resample each partner policy</p>
+<dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>None</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="pantheonrl.envs.rpsgym.rps.RPSEnv.resample_random">
 <span class="sig-name descname"><span class="pre">resample_random</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="headerlink" href="#pantheonrl.envs.rpsgym.rps.RPSEnv.resample_random" title="Link to this definition"></a></dt>
@@ -511,7 +525,7 @@ <h1>pantheonrl.envs.rpsgym.rps.RPSEnv<a class="headerlink" href="#pantheonrl-env
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><p><strong>resample_policy</strong> (<em>str</em>) – The new resampling policy to use.
-Valid values are: “default”, “robin”, “random”</p>
+Valid values are: “default”, “robin”, “random”, or “null”</p>
 </dd>
 <dt class="field-even">Return type<span class="colon">:</span></dt>
 <dd class="field-even"><p>None</p>
diff --git a/docs_build/build/html/_autosummary/pantheonrl.html b/docs_build/build/html/_autosummary/pantheonrl.html
index e89d12e..1cc4a45 100644
--- a/docs_build/build/html/_autosummary/pantheonrl.html
+++ b/docs_build/build/html/_autosummary/pantheonrl.html
@@ -85,18 +85,29 @@ <h1>pantheonrl<a class="headerlink" href="#pantheonrl" title="Link to this headi
 <table class="autosummary longtable docutils align-default">
 <tbody>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.algos.html#module-pantheonrl.algos" title="pantheonrl.algos"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.algos</span></code></a></p></td>
-<td><p></p></td>
+<td><p>Collection of algorithms in PantheonRL.</p></td>
 </tr>
 <tr class="row-even"><td><p><a class="reference internal" href="pantheonrl.common.html#module-pantheonrl.common" title="pantheonrl.common"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.common</span></code></a></p></td>
-<td><p></p></td>
+<td><p>The core classes in PantheonRL.</p></td>
 </tr>
 <tr class="row-odd"><td><p><a class="reference internal" href="pantheonrl.envs.html#module-pantheonrl.envs" title="pantheonrl.envs"><code class="xref py py-obj docutils literal notranslate"><span class="pre">pantheonrl.envs</span></code></a></p></td>
 <td><p>Collection of default environments in PantheonRL.</p></td>
 </tr>
 </tbody>
 </table>
-<p id="module-pantheonrl"><a class="reference external" href="https://github.com/Stanford-ILIAD/PantheonRL">PantheonRL</a> is a package for training and testing multi-agent reinforcement learning environments. The goal of PantheonRL is to provide a modular and extensible framework for training agent policies, fine-tuning agent policies, ad-hoc pairing of agents, and more.</p>
-<p>PantheonRL is built to support Stable-Baselines3 (SB3), allowing direct access to many of SB3’s standard RL training algorithms such as PPO. PantheonRL currently follows a decentralized training paradigm – each agent is equipped with its own replay buffer and update algorithm. The agents objects are designed to be easily manipulable. They can be saved, loaded and plugged into different training procedures such as self-play, ad-hoc / cross-play, round-robin training, or finetuning.</p>
+<p id="module-pantheonrl"><a class="reference external" href="https://github.com/Stanford-ILIAD/PantheonRL">PantheonRL</a> is a
+package for training and testing multi-agent reinforcement learning
+environments. The goal of PantheonRL is to provide a modular and
+extensible framework for training agent policies, fine-tuning agent
+policies, ad-hoc pairing of agents, and more.</p>
+<p>PantheonRL is built to support Stable-Baselines3 (SB3), allowing
+direct access to many of SB3’s standard RL training algorithms such as
+PPO. PantheonRL currently follows a decentralized training paradigm –
+each agent is equipped with its own replay buffer and update
+algorithm. The agents objects are designed to be easily
+manipulable. They can be saved, loaded and plugged into different
+training procedures such as self-play, ad-hoc / cross-play,
+round-robin training, or finetuning.</p>
 </section>
 
 
diff --git a/docs_build/build/html/_modules/pantheonrl/algos/adap/adap_learn.html b/docs_build/build/html/_modules/pantheonrl/algos/adap/adap_learn.html
index 392e85f..46ab249 100644
--- a/docs_build/build/html/_modules/pantheonrl/algos/adap/adap_learn.html
+++ b/docs_build/build/html/_modules/pantheonrl/algos/adap/adap_learn.html
@@ -74,18 +74,23 @@
            <div itemprop="articleBody">
              
   <h1>Source code for pantheonrl.algos.adap.adap_learn</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">warnings</span>
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Type</span><span class="p">,</span> <span class="n">Union</span><span class="p">,</span> <span class="n">Tuple</span>
+<span></span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">Modified implementation of PPO to support ADAP</span>
+<span class="sd">&quot;&quot;&quot;</span>
+<span class="kn">import</span> <span class="nn">warnings</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Type</span><span class="p">,</span> <span class="n">Union</span>
 
 <span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-<span class="kn">import</span> <span class="nn">torch</span> <span class="k">as</span> <span class="nn">th</span>
-<span class="kn">import</span> <span class="nn">gymnasium</span> <span class="k">as</span> <span class="nn">gym</span>
+<span class="kn">import</span> <span class="nn">torch</span>
 <span class="kn">from</span> <span class="nn">gymnasium</span> <span class="kn">import</span> <span class="n">spaces</span>
 <span class="kn">from</span> <span class="nn">torch.nn</span> <span class="kn">import</span> <span class="n">functional</span> <span class="k">as</span> <span class="n">F</span>
 
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.on_policy_algorithm</span> <span class="kn">import</span> <span class="n">OnPolicyAlgorithm</span>
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.type_aliases</span> <span class="kn">import</span> <span class="p">(</span><span class="n">GymEnv</span><span class="p">,</span> <span class="n">MaybeCallback</span><span class="p">,</span>
-                                                   <span class="n">Schedule</span><span class="p">)</span>
+<span class="kn">from</span> <span class="nn">stable_baselines3.common.type_aliases</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">GymEnv</span><span class="p">,</span>
+    <span class="n">MaybeCallback</span><span class="p">,</span>
+    <span class="n">Schedule</span><span class="p">,</span>
+<span class="p">)</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.utils</span> <span class="kn">import</span> <span class="n">explained_variance</span><span class="p">,</span> <span class="n">get_schedule_fn</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.vec_env</span> <span class="kn">import</span> <span class="n">VecEnv</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.callbacks</span> <span class="kn">import</span> <span class="n">BaseCallback</span>
@@ -104,61 +109,6 @@ <h1>Source code for pantheonrl.algos.adap.adap_learn</h1><div class="highlight">
 <span class="sd">    ADAP</span>
 
 <span class="sd">    Borrows from Proximal Policy Optimization algorithm (PPO) (clip version)</span>
-<span class="sd">    Paper: https://arxiv.org/abs/1707.06347</span>
-<span class="sd">    Code: This implementation borrows code from OpenAI Spinning Up</span>
-<span class="sd">    (https://github.com/openai/spinningup/)</span>
-<span class="sd">    https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail and</span>
-<span class="sd">    and Stable Baselines (PPO2 from https://github.com/hill-a/stable-baselines)</span>
-<span class="sd">    Introduction to PPO:</span>
-<span class="sd">    https://spinningup.openai.com/en/latest/algorithms/ppo.html</span>
-<span class="sd">    :param policy: The policy model to use (MlpPolicy, CnnPolicy, ...)</span>
-<span class="sd">    :param env: The environment to learn from</span>
-<span class="sd">        (if registered in Gym, can be str)</span>
-<span class="sd">    :param learning_rate: The learning rate, it can be a function</span>
-<span class="sd">        of the current progress remaining (from 1 to 0)</span>
-<span class="sd">    :param n_steps: The number of steps to run for each environment per update</span>
-<span class="sd">        (i.e. rollout buffer size is n_steps * n_envs where n_envs is number of</span>
-<span class="sd">        environment copies running in parallel)</span>
-<span class="sd">        NOTE: n_steps * n_envs must be greater than 1 (because of the advantage</span>
-<span class="sd">        normalization) See https://github.com/pytorch/pytorch/issues/29372</span>
-<span class="sd">    :param batch_size: Minibatch size</span>
-<span class="sd">    :param n_epochs: Number of epoch when optimizing the surrogate loss</span>
-<span class="sd">    :param gamma: Discount factor</span>
-<span class="sd">    :param gae_lambda: Factor for trade-off of bias vs variance for Generalized</span>
-<span class="sd">        Advantage Estimator</span>
-<span class="sd">    :param clip_range: Clipping parameter, it can be a function of the current</span>
-<span class="sd">        progress remaining (from 1 to 0).</span>
-<span class="sd">    :param clip_range_vf: Clipping parameter for the value function,</span>
-<span class="sd">        it can be a function of the current progress remaining (from 1 to 0).</span>
-<span class="sd">        This is a parameter specific to the OpenAI implementation. If None is</span>
-<span class="sd">        passed (default), no clipping will be done on the value function.</span>
-<span class="sd">        IMPORTANT: this clipping depends on the reward scaling.</span>
-<span class="sd">    :param ent_coef: Entropy coefficient for the loss calculation</span>
-<span class="sd">    :param vf_coef: Value function coefficient for the loss calculation</span>
-<span class="sd">    :param max_grad_norm: The maximum value for the gradient clipping</span>
-<span class="sd">    :param use_sde: Whether to use generalized State Dependent Exploration</span>
-<span class="sd">        (gSDE) instead of action noise exploration (default: False)</span>
-<span class="sd">    :param sde_sample_freq: Sample a new noise matrix every n steps when using</span>
-<span class="sd">        gSDE</span>
-<span class="sd">        Default: -1 (only sample at the beginning of the rollout)</span>
-<span class="sd">    :param target_kl: Limit the KL divergence between updates,</span>
-<span class="sd">        because the clipping is not enough to prevent large update</span>
-<span class="sd">        see issue #213</span>
-<span class="sd">        (cf https://github.com/hill-a/stable-baselines/issues/213)</span>
-<span class="sd">        By default, there is no limit on the kl div.</span>
-<span class="sd">    :param tensorboard_log: the log location for tensorboard</span>
-<span class="sd">        (if None, no logging)</span>
-<span class="sd">    :param create_eval_env: Whether to create a second environment that will be</span>
-<span class="sd">        used for evaluating the agent periodically. (Only available when</span>
-<span class="sd">        passing string for the environment)</span>
-<span class="sd">    :param policy_kwargs: additional arguments to be passed to the policy on</span>
-<span class="sd">        creation</span>
-<span class="sd">    :param verbose: the verbosity level: 0 no output, 1 info, 2 debug</span>
-<span class="sd">    :param seed: Seed for the pseudo random generators</span>
-<span class="sd">    :param device: Device (cpu, cuda, ...) on which the code should be run.</span>
-<span class="sd">        Setting it to auto, the code will be run on the GPU if possible.</span>
-<span class="sd">    :param _init_setup_model: Whether or not to build the network at the</span>
-<span class="sd">        creation of the instance</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
@@ -173,29 +123,31 @@ <h1>Source code for pantheonrl.algos.adap.adap_learn</h1><div class="highlight">
         <span class="n">gae_lambda</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.95</span><span class="p">,</span>
         <span class="n">clip_range</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span> <span class="n">Schedule</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">,</span>
         <span class="n">clip_range_vf</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="kc">None</span><span class="p">,</span> <span class="nb">float</span><span class="p">,</span> <span class="n">Schedule</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">normalize_advantage</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
         <span class="n">ent_coef</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
         <span class="n">vf_coef</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
         <span class="n">max_grad_norm</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
         <span class="n">use_sde</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
         <span class="n">sde_sample_freq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span>
         <span class="n">target_kl</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">stats_window_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">100</span><span class="p">,</span>
         <span class="n">tensorboard_log</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="n">create_eval_env</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
         <span class="n">policy_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">verbose</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
         <span class="n">seed</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="n">device</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">device</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;auto&quot;</span><span class="p">,</span>
+        <span class="n">device</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;auto&quot;</span><span class="p">,</span>
         <span class="n">_init_setup_model</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="c1"># New ADAP</span>
         <span class="n">context_loss_coeff</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
         <span class="n">context_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
         <span class="n">num_context_samples</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">5</span><span class="p">,</span>
         <span class="n">context_sampler</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;l2&quot;</span><span class="p">,</span>
-        <span class="n">num_state_samples</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32</span>
+        <span class="n">num_state_samples</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32</span><span class="p">,</span>
     <span class="p">):</span>
         <span class="k">if</span> <span class="n">policy_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
             <span class="n">policy_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
-        <span class="n">policy_kwargs</span><span class="p">[</span><span class="s1">&#39;context_size&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">context_size</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">ADAP</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="n">policy_kwargs</span><span class="p">[</span><span class="s2">&quot;context_size&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">context_size</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
             <span class="n">policy</span><span class="p">,</span>
             <span class="n">env</span><span class="p">,</span>
             <span class="n">learning_rate</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
@@ -207,11 +159,11 @@ <h1>Source code for pantheonrl.algos.adap.adap_learn</h1><div class="highlight">
             <span class="n">max_grad_norm</span><span class="o">=</span><span class="n">max_grad_norm</span><span class="p">,</span>
             <span class="n">use_sde</span><span class="o">=</span><span class="n">use_sde</span><span class="p">,</span>
             <span class="n">sde_sample_freq</span><span class="o">=</span><span class="n">sde_sample_freq</span><span class="p">,</span>
+            <span class="n">stats_window_size</span><span class="o">=</span><span class="n">stats_window_size</span><span class="p">,</span>
             <span class="n">tensorboard_log</span><span class="o">=</span><span class="n">tensorboard_log</span><span class="p">,</span>
             <span class="n">policy_kwargs</span><span class="o">=</span><span class="n">policy_kwargs</span><span class="p">,</span>
             <span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">,</span>
             <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span>
-            <span class="n">create_eval_env</span><span class="o">=</span><span class="n">create_eval_env</span><span class="p">,</span>
             <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
             <span class="n">_init_setup_model</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
             <span class="n">supported_action_spaces</span><span class="o">=</span><span class="p">(</span>
@@ -224,9 +176,10 @@ <h1>Source code for pantheonrl.algos.adap.adap_learn</h1><div class="highlight">
 
         <span class="c1"># Sanity check, otherwise it will lead to noisy gradient and NaN</span>
         <span class="c1"># because of the advantage normalization</span>
-        <span class="k">assert</span> <span class="p">(</span>
-            <span class="n">batch_size</span> <span class="o">&gt;</span> <span class="mi">1</span>
-        <span class="p">),</span> <span class="s2">&quot;`batch_size` must be greater than 1. </span><span class="se">\</span>
+        <span class="k">if</span> <span class="n">normalize_advantage</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="p">(</span>
+                <span class="n">batch_size</span> <span class="o">&gt;</span> <span class="mi">1</span>
+            <span class="p">),</span> <span class="s2">&quot;`batch_size` must be greater than 1. </span><span class="se">\</span>
 <span class="s2">            See https://github.com/DLR-RM/stable-baselines3/issues/440&quot;</span>
 
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">env</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
@@ -234,78 +187,230 @@ <h1>Source code for pantheonrl.algos.adap.adap_learn</h1><div class="highlight">
             <span class="c1"># when doing advantage normalization</span>
 
             <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">action_space</span> <span class="o">==</span> <span class="n">spaces</span><span class="o">.</span><span class="n">Box</span><span class="p">:</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span> <span class="o">=</span> <span class="s1">&#39;gaussian&#39;</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span> <span class="o">=</span> <span class="s2">&quot;gaussian&quot;</span>
             <span class="k">else</span><span class="p">:</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span> <span class="o">=</span> <span class="s1">&#39;categorical&#39;</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span> <span class="o">=</span> <span class="s2">&quot;categorical&quot;</span>
             <span class="n">buffer_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span>
-            <span class="k">assert</span> <span class="p">(</span>
-                <span class="n">buffer_size</span> <span class="o">&gt;</span> <span class="mi">1</span>
-            <span class="p">),</span> <span class="sa">f</span><span class="s2">&quot;`n_steps * n_envs` must be greater than 1. Currently n_steps=</span><span class="se">\</span>
-<span class="s2">                </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="si">}</span><span class="s2"> and n_envs=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span><span class="si">}</span><span class="s2">&quot;</span>
-            <span class="c1"># Check that rollout buffer size is a multiple of mini-batch size</span>
-            <span class="n">untruncated_batches</span> <span class="o">=</span> <span class="n">buffer_size</span> <span class="o">//</span> <span class="n">batch_size</span>
+            <span class="k">assert</span> <span class="n">buffer_size</span> <span class="o">&gt;</span> <span class="mi">1</span> <span class="ow">or</span> <span class="p">(</span>
+                <span class="ow">not</span> <span class="n">normalize_advantage</span>
+            <span class="p">),</span> <span class="sa">f</span><span class="s2">&quot;`n_steps * n_envs` must be greater than 1. </span><span class="se">\</span>
+<span class="s2">            Currently n_steps=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="si">}</span><span class="s2"> and n_envs=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="c1"># Check that the rollout buffer size is</span>
+            <span class="c1"># a multiple of the mini-batch size</span>
             <span class="k">if</span> <span class="n">buffer_size</span> <span class="o">%</span> <span class="n">batch_size</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
                 <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
                     <span class="sa">f</span><span class="s2">&quot;You have specified a mini-batch size of </span><span class="si">{</span><span class="n">batch_size</span><span class="si">}</span><span class="s2">,&quot;</span>
-                    <span class="sa">f</span><span class="s2">&quot; but because the `RolloutBuffer` is of size </span><span class="se">\</span>
-<span class="s2">                    `n_steps * n_envs = </span><span class="si">{</span><span class="n">buffer_size</span><span class="si">}</span><span class="s2">`,&quot;</span>
-                    <span class="sa">f</span><span class="s2">&quot; after every </span><span class="si">{</span><span class="n">untruncated_batches</span><span class="si">}</span><span class="s2"> untruncated </span><span class="se">\</span>
-<span class="s2">                    mini-batches,&quot;</span>
-                    <span class="sa">f</span><span class="s2">&quot; there will be a truncated mini-batch of size </span><span class="se">\</span>
-<span class="s2">                    </span><span class="si">{</span><span class="n">buffer_size</span><span class="w"> </span><span class="o">%</span><span class="w"> </span><span class="n">batch_size</span><span class="si">}</span><span class="se">\n</span><span class="s2">&quot;</span>
-                    <span class="sa">f</span><span class="s2">&quot;We recommend using a `batch_size` that is a factor of </span><span class="se">\</span>
-<span class="s2">                    `n_steps * n_envs`.</span><span class="se">\n</span><span class="s2">&quot;</span>
-                    <span class="sa">f</span><span class="s2">&quot;Info: (n_steps=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="si">}</span><span class="s2"> and </span><span class="se">\</span>
-<span class="s2">                    n_envs=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span><span class="si">}</span><span class="s2">)&quot;</span>
+                    <span class="sa">f</span><span class="s2">&quot; but the `RolloutBuffer` is of size </span><span class="se">\</span>
+<span class="s2">                    `n_steps * n_envs = </span><span class="si">{</span><span class="n">buffer_size</span><span class="si">}</span><span class="s2">`.&quot;</span>
                 <span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span> <span class="o">=</span> <span class="n">batch_size</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">n_epochs</span> <span class="o">=</span> <span class="n">n_epochs</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_raw</span> <span class="o">=</span> <span class="n">clip_range</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf_raw</span> <span class="o">=</span> <span class="n">clip_range_vf</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">clip_range</span> <span class="o">=</span> <span class="n">clip_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="o">=</span> <span class="n">clip_range_vf</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">normalize_advantage</span> <span class="o">=</span> <span class="n">normalize_advantage</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span> <span class="o">=</span> <span class="n">target_kl</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">context_loss_coeff</span> <span class="o">=</span> <span class="n">context_loss_coeff</span>
-
         <span class="bp">self</span><span class="o">.</span><span class="n">num_state_samples</span> <span class="o">=</span> <span class="n">num_state_samples</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">num_context_samples</span> <span class="o">=</span> <span class="n">num_context_samples</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">context_sampler</span> <span class="o">=</span> <span class="n">context_sampler</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span> <span class="o">=</span> <span class="n">context_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">full_obs_shape</span> <span class="o">=</span> <span class="kc">None</span>
 
         <span class="k">if</span> <span class="n">_init_setup_model</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">_setup_model</span><span class="p">()</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">full_obs_shape</span> <span class="o">=</span> <span class="kc">None</span>
-
 <div class="viewcode-block" id="ADAP.set_env">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html#pantheonrl.algos.adap.adap_learn.ADAP.set_env">[docs]</a>
-    <span class="k">def</span> <span class="nf">set_env</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">env</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">ADAP</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">set_env</span><span class="p">(</span><span class="n">env</span><span class="p">)</span>
+    <span class="k">def</span> <span class="nf">set_env</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">env</span><span class="p">,</span> <span class="n">force_reset</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Set the env to use&quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">set_env</span><span class="p">(</span><span class="n">env</span><span class="p">,</span> <span class="n">force_reset</span><span class="o">=</span><span class="n">force_reset</span><span class="p">)</span>
 
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">action_space</span> <span class="o">==</span> <span class="n">spaces</span><span class="o">.</span><span class="n">Box</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span> <span class="o">=</span> <span class="s1">&#39;gaussian&#39;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span> <span class="o">=</span> <span class="s2">&quot;gaussian&quot;</span>
         <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span> <span class="o">=</span> <span class="s1">&#39;categorical&#39;</span></div>
+            <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span> <span class="o">=</span> <span class="s2">&quot;categorical&quot;</span></div>
 
 
     <span class="k">def</span> <span class="nf">_setup_model</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">ADAP</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">_setup_model</span><span class="p">()</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">_setup_model</span><span class="p">()</span>
 
         <span class="n">sampled_context</span> <span class="o">=</span> <span class="n">SAMPLERS</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">context_sampler</span><span class="p">](</span>
-            <span class="n">ctx_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">,</span> <span class="n">num</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">torch</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-
+            <span class="n">ctx_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">,</span> <span class="n">num</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">use_torch</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">set_context</span><span class="p">(</span><span class="n">sampled_context</span><span class="p">)</span>
 
         <span class="c1"># Initialize schedules for policy/value clipping</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">clip_range</span> <span class="o">=</span> <span class="n">get_schedule_fn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">clip_range_raw</span><span class="p">)</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf_raw</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf_raw</span><span class="p">,</span> <span class="p">(</span><span class="nb">float</span><span class="p">,</span> <span class="nb">int</span><span class="p">)):</span>
-                <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf_raw</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span> \
-                    <span class="s2">&quot;`clip_range_vf` must be positive, &quot;</span> \
+        <span class="bp">self</span><span class="o">.</span><span class="n">clip_range</span> <span class="o">=</span> <span class="n">get_schedule_fn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">clip_range</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span><span class="p">,</span> <span class="p">(</span><span class="nb">float</span><span class="p">,</span> <span class="nb">int</span><span class="p">)):</span>
+                <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span> <span class="p">(</span>
+                    <span class="s2">&quot;`clip_range_vf` must be positive, &quot;</span>
                     <span class="s2">&quot;pass `None` to deactivate vf clipping&quot;</span>
+                <span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="o">=</span> <span class="n">get_schedule_fn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span><span class="p">)</span>
+
+<div class="viewcode-block" id="ADAP.collect_rollouts">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html#pantheonrl.algos.adap.adap_learn.ADAP.collect_rollouts">[docs]</a>
+    <span class="k">def</span> <span class="nf">collect_rollouts</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">env</span><span class="p">:</span> <span class="n">VecEnv</span><span class="p">,</span>
+        <span class="n">callback</span><span class="p">:</span> <span class="n">BaseCallback</span><span class="p">,</span>
+        <span class="n">rollout_buffer</span><span class="p">:</span> <span class="n">RolloutBuffer</span><span class="p">,</span>
+        <span class="n">n_rollout_steps</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Collect rollouts using the current policy and fill a `RolloutBuffer`.</span>
+<span class="sd">        The term rollout here refers to the model-free notion and should not</span>
+<span class="sd">        be used with the concept of rollout used in model-based RL or planning.</span>
+
+<span class="sd">        :param env: The training environment</span>
+<span class="sd">        :param callback: Callback that will be called at each step</span>
+<span class="sd">            (and at the beginning and end of the rollout)</span>
+<span class="sd">        :param rollout_buffer: Buffer to fill with rollouts</span>
+<span class="sd">        :param n_rollout_steps: Number of experiences to collect per env</span>
+<span class="sd">        :return: True if function returned with at least `n_rollout_steps`</span>
+<span class="sd">            collected, False if callback terminated rollout prematurely.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+        <span class="p">),</span> <span class="s2">&quot;No previous observation was provided&quot;</span>
+        <span class="c1"># Switch to eval mode (this affects batch norm / dropout)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">set_training_mode</span><span class="p">(</span><span class="kc">False</span><span class="p">)</span>
+
+        <span class="n">n_steps</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="c1"># ADAP ADDITION</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">full_obs_shape</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">full_obs_shape</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">obs_shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">,</span>
+            <span class="p">)</span>
+
+        <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">obs_shape</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">full_obs_shape</span><span class="p">)</span>
+        <span class="c1"># ADAP END</span>
+
+        <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+        <span class="c1"># Sample new weights for the state dependent exploration</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_sde</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">reset_noise</span><span class="p">(</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span><span class="p">)</span>
+
+        <span class="n">callback</span><span class="o">.</span><span class="n">on_rollout_start</span><span class="p">()</span>
+
+        <span class="k">while</span> <span class="n">n_steps</span> <span class="o">&lt;</span> <span class="n">n_rollout_steps</span><span class="p">:</span>
+            <span class="k">if</span> <span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">use_sde</span>
+                <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_sample_freq</span> <span class="o">&gt;</span> <span class="mi">0</span>
+                <span class="ow">and</span> <span class="n">n_steps</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_sample_freq</span> <span class="o">==</span> <span class="mi">0</span>
+            <span class="p">):</span>
+                <span class="c1"># Sample a new noise matrix</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">reset_noise</span><span class="p">(</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span><span class="p">)</span>
+
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="c1"># Convert to pytorch tensor or to TensorDict</span>
+                <span class="n">obs_tensor</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span>
+                    <span class="p">(</span>
+                        <span class="n">obs_as_tensor</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+                            <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+                        <span class="p">),</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">get_context</span><span class="p">(),</span>
+                    <span class="p">),</span>
+                    <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="p">)</span>
+                <span class="n">actions</span><span class="p">,</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_probs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="p">(</span><span class="n">obs_tensor</span><span class="p">)</span>
+            <span class="n">actions</span> <span class="o">=</span> <span class="n">actions</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+
+            <span class="c1"># Rescale and perform action</span>
+            <span class="n">clipped_actions</span> <span class="o">=</span> <span class="n">actions</span>
+
+            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span> <span class="n">spaces</span><span class="o">.</span><span class="n">Box</span><span class="p">):</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">squash_output</span><span class="p">:</span>
+                    <span class="c1"># Unscale the actions to match env bounds</span>
+                    <span class="c1"># if they were previously squashed (scaled in [-1, 1])</span>
+                    <span class="n">clipped_actions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">unscale_action</span><span class="p">(</span>
+                        <span class="n">clipped_actions</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="c1"># Otherwise, clip the actions to avoid out of bound error</span>
+                    <span class="c1"># as we are sampling from an unbounded Gaussian</span>
+                    <span class="n">clipped_actions</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span>
+                        <span class="n">actions</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">low</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">high</span>
+                    <span class="p">)</span>
+
+            <span class="n">new_obs</span><span class="p">,</span> <span class="n">rewards</span><span class="p">,</span> <span class="n">dones</span><span class="p">,</span> <span class="n">infos</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">clipped_actions</span><span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span> <span class="o">+=</span> <span class="n">env</span><span class="o">.</span><span class="n">num_envs</span>
+
+            <span class="c1"># Give access to local variables</span>
+            <span class="n">callback</span><span class="o">.</span><span class="n">update_locals</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">callback</span><span class="o">.</span><span class="n">on_step</span><span class="p">():</span>
+                <span class="k">return</span> <span class="kc">False</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">_update_info_buffer</span><span class="p">(</span><span class="n">infos</span><span class="p">)</span>
+            <span class="n">n_steps</span> <span class="o">+=</span> <span class="mi">1</span>
+
+            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span> <span class="n">spaces</span><span class="o">.</span><span class="n">Discrete</span><span class="p">):</span>
+                <span class="c1"># Reshape in case of discrete action</span>
+                <span class="n">actions</span> <span class="o">=</span> <span class="n">actions</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+
+            <span class="c1"># Handle timeout by bootstraping with value function</span>
+            <span class="c1"># see GitHub issue #633</span>
+            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">done</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">dones</span><span class="p">):</span>
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="n">done</span>
+                    <span class="ow">and</span> <span class="n">infos</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;terminal_observation&quot;</span><span class="p">)</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                    <span class="ow">and</span> <span class="n">infos</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;TimeLimit.truncated&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
+                <span class="p">):</span>
+                    <span class="n">terminal_obs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">obs_to_tensor</span><span class="p">(</span>
+                        <span class="n">infos</span><span class="p">[</span><span class="n">idx</span><span class="p">][</span><span class="s2">&quot;terminal_observation&quot;</span><span class="p">]</span>
+                    <span class="p">)[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">reshape</span><span class="p">((</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">))</span>
+                    <span class="n">terminal_obs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span>
+                        <span class="p">(</span><span class="n">terminal_obs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">get_context</span><span class="p">()),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span>
+                    <span class="p">)</span>
+                    <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                        <span class="n">terminal_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">predict_values</span><span class="p">(</span>
+                            <span class="n">terminal_obs</span>
+                        <span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+                    <span class="n">rewards</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">gamma</span> <span class="o">*</span> <span class="n">terminal_value</span>
+
+            <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">add</span><span class="p">(</span>
+                <span class="n">np</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                    <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">get_context</span><span class="p">()),</span> <span class="n">axis</span><span class="o">=</span><span class="kc">None</span>
+                <span class="p">),</span>
+                <span class="c1"># self._last_obs,  # type: ignore[arg-type]</span>
+                <span class="n">actions</span><span class="p">,</span>
+                <span class="n">rewards</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">_last_episode_starts</span><span class="p">,</span>  <span class="c1"># type: ignore[arg-type]</span>
+                <span class="n">values</span><span class="p">,</span>
+                <span class="n">log_probs</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span> <span class="o">=</span> <span class="n">new_obs</span>  <span class="c1"># type: ignore[assignment]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_last_episode_starts</span> <span class="o">=</span> <span class="n">dones</span>
+
+            <span class="c1"># ADAP CHANGE: resample context</span>
+            <span class="k">if</span> <span class="n">dones</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span>
+                <span class="n">sampled_context</span> <span class="o">=</span> <span class="n">SAMPLERS</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">context_sampler</span><span class="p">](</span>
+                    <span class="n">ctx_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">,</span> <span class="n">num</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">use_torch</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">set_context</span><span class="p">(</span><span class="n">sampled_context</span><span class="p">)</span>
+
+        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+            <span class="c1"># Compute value for the last timestep</span>
+            <span class="n">values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">predict_values</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">((</span>
+                <span class="n">obs_as_tensor</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">((</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)),</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">get_context</span><span class="p">()),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">compute_returns_and_advantage</span><span class="p">(</span>
+            <span class="n">last_values</span><span class="o">=</span><span class="n">values</span><span class="p">,</span> <span class="n">dones</span><span class="o">=</span><span class="n">dones</span>
+        <span class="p">)</span>
+
+        <span class="n">callback</span><span class="o">.</span><span class="n">update_locals</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
+
+        <span class="n">callback</span><span class="o">.</span><span class="n">on_rollout_end</span><span class="p">()</span>
+
+        <span class="k">return</span> <span class="kc">True</span></div>
 
-            <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="o">=</span> <span class="n">get_schedule_fn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf_raw</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf_raw</span>
 
 <div class="viewcode-block" id="ADAP.train">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html#pantheonrl.algos.adap.adap_learn.ADAP.train">[docs]</a>
@@ -313,6 +418,8 @@ <h1>Source code for pantheonrl.algos.adap.adap_learn</h1><div class="highlight">
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Update policy using the currently gathered rollout buffer.</span>
 <span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># Switch to train mode (this affects batch norm / dropout)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">set_training_mode</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
         <span class="c1"># Update optimizer learning rate</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">_update_learning_rate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">optimizer</span><span class="p">)</span>
         <span class="c1"># Compute current clip range</span>
@@ -320,14 +427,14 @@ <h1>Source code for pantheonrl.algos.adap.adap_learn</h1><div class="highlight">
         <span class="c1"># Optional: clip range for the value function</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
             <span class="n">clip_range_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span><span class="p">(</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">_current_progress_remaining</span><span class="p">)</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">_current_progress_remaining</span>
+            <span class="p">)</span>
 
         <span class="n">entropy_losses</span> <span class="o">=</span> <span class="p">[]</span>
         <span class="n">pg_losses</span><span class="p">,</span> <span class="n">value_losses</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[]</span>
         <span class="n">clip_fractions</span> <span class="o">=</span> <span class="p">[]</span>
 
         <span class="n">continue_training</span> <span class="o">=</span> <span class="kc">True</span>
-
         <span class="c1"># train for n_epochs epochs</span>
         <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_epochs</span><span class="p">):</span>
             <span class="n">approx_kl_divs</span> <span class="o">=</span> <span class="p">[]</span>
@@ -340,44 +447,48 @@ <h1>Source code for pantheonrl.algos.adap.adap_learn</h1><div class="highlight">
                     <span class="n">actions</span> <span class="o">=</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">actions</span><span class="o">.</span><span class="n">long</span><span class="p">()</span><span class="o">.</span><span class="n">flatten</span><span class="p">()</span>
 
                 <span class="c1"># Re-sample the noise matrix because the log_std has changed</span>
-                <span class="c1"># TODO: investigate why there is no issue with the gradient</span>
-                <span class="c1"># if that line is commented (as in SAC)</span>
                 <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_sde</span><span class="p">:</span>
                     <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">reset_noise</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">)</span>
 
                 <span class="n">values</span><span class="p">,</span> <span class="n">log_prob</span><span class="p">,</span> <span class="n">entropy</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">evaluate_actions</span><span class="p">(</span>
-                    <span class="n">rollout_data</span><span class="o">.</span><span class="n">observations</span><span class="p">,</span> <span class="n">actions</span><span class="p">)</span>
+                    <span class="n">rollout_data</span><span class="o">.</span><span class="n">observations</span><span class="p">,</span> <span class="n">actions</span>
+                <span class="p">)</span>
                 <span class="n">values</span> <span class="o">=</span> <span class="n">values</span><span class="o">.</span><span class="n">flatten</span><span class="p">()</span>
                 <span class="c1"># Normalize advantage</span>
                 <span class="n">advantages</span> <span class="o">=</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">advantages</span>
-                <span class="n">advantages</span> <span class="o">=</span> <span class="p">(</span><span class="n">advantages</span> <span class="o">-</span> <span class="n">advantages</span><span class="o">.</span><span class="n">mean</span><span class="p">())</span> <span class="o">/</span> \
-                    <span class="p">(</span><span class="n">advantages</span><span class="o">.</span><span class="n">std</span><span class="p">()</span> <span class="o">+</span> <span class="mf">1e-8</span><span class="p">)</span>
+                <span class="c1"># Normalization does not make sense if mini batchsize == 1</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">normalize_advantage</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">advantages</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="n">advantages</span> <span class="o">=</span> <span class="p">(</span><span class="n">advantages</span> <span class="o">-</span> <span class="n">advantages</span><span class="o">.</span><span class="n">mean</span><span class="p">())</span> <span class="o">/</span> <span class="p">(</span>
+                        <span class="n">advantages</span><span class="o">.</span><span class="n">std</span><span class="p">()</span> <span class="o">+</span> <span class="mf">1e-8</span>
+                    <span class="p">)</span>
 
                 <span class="c1"># ratio between old and new policy</span>
-                <span class="n">ratio</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">log_prob</span> <span class="o">-</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_log_prob</span><span class="p">)</span>
+                <span class="n">ratio</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">log_prob</span> <span class="o">-</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_log_prob</span><span class="p">)</span>
 
                 <span class="c1"># clipped surrogate loss</span>
                 <span class="n">policy_loss_1</span> <span class="o">=</span> <span class="n">advantages</span> <span class="o">*</span> <span class="n">ratio</span>
-                <span class="n">policy_loss_2</span> <span class="o">=</span> <span class="n">advantages</span> <span class="o">*</span> \
-                    <span class="n">th</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="n">ratio</span><span class="p">,</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">clip_range</span><span class="p">,</span> <span class="mi">1</span> <span class="o">+</span> <span class="n">clip_range</span><span class="p">)</span>
-                <span class="n">policy_loss</span> <span class="o">=</span> <span class="o">-</span><span class="n">th</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="n">policy_loss_1</span><span class="p">,</span> <span class="n">policy_loss_2</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+                <span class="n">policy_loss_2</span> <span class="o">=</span> <span class="n">advantages</span> <span class="o">*</span> <span class="n">torch</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span>
+                    <span class="n">ratio</span><span class="p">,</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">clip_range</span><span class="p">,</span> <span class="mi">1</span> <span class="o">+</span> <span class="n">clip_range</span>
+                <span class="p">)</span>
+                <span class="n">policy_loss</span> <span class="o">=</span> <span class="o">-</span><span class="n">torch</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="n">policy_loss_1</span><span class="p">,</span> <span class="n">policy_loss_2</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
 
                 <span class="c1"># Logging</span>
                 <span class="n">pg_losses</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">policy_loss</span><span class="o">.</span><span class="n">item</span><span class="p">())</span>
-                <span class="n">clip_fraction</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span>
-                    <span class="p">(</span><span class="n">th</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">ratio</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">clip_range</span><span class="p">)</span><span class="o">.</span><span class="n">float</span><span class="p">())</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                <span class="n">clip_fraction</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span>
+                    <span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">ratio</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">clip_range</span><span class="p">)</span><span class="o">.</span><span class="n">float</span><span class="p">()</span>
+                <span class="p">)</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
                 <span class="n">clip_fractions</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">clip_fraction</span><span class="p">)</span>
 
                 <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
                     <span class="c1"># No clipping</span>
                     <span class="n">values_pred</span> <span class="o">=</span> <span class="n">values</span>
                 <span class="k">else</span><span class="p">:</span>
-                    <span class="c1"># Clip the different between old and new value</span>
+                    <span class="c1"># Clip the difference between old and new value</span>
                     <span class="c1"># NOTE: this depends on the reward scaling</span>
-                    <span class="n">values_pred</span> <span class="o">=</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_values</span> <span class="o">+</span> <span class="n">th</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span>
+                    <span class="n">values_pred</span> <span class="o">=</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_values</span> <span class="o">+</span> <span class="n">torch</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span>
                         <span class="n">values</span> <span class="o">-</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_values</span><span class="p">,</span>
                         <span class="o">-</span><span class="n">clip_range_vf</span><span class="p">,</span>
-                        <span class="n">clip_range_vf</span>
+                        <span class="n">clip_range_vf</span><span class="p">,</span>
                     <span class="p">)</span>
                 <span class="c1"># Value loss using the TD(gae_lambda) target</span>
                 <span class="n">value_loss</span> <span class="o">=</span> <span class="n">F</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">rollout_data</span><span class="o">.</span><span class="n">returns</span><span class="p">,</span> <span class="n">values_pred</span><span class="p">)</span>
@@ -386,179 +497,85 @@ <h1>Source code for pantheonrl.algos.adap.adap_learn</h1><div class="highlight">
                 <span class="c1"># Entropy loss favor exploration</span>
                 <span class="k">if</span> <span class="n">entropy</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
                     <span class="c1"># Approximate entropy when no analytical form</span>
-                    <span class="n">entropy_loss</span> <span class="o">=</span> <span class="o">-</span><span class="n">th</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="o">-</span><span class="n">log_prob</span><span class="p">)</span>
+                    <span class="n">entropy_loss</span> <span class="o">=</span> <span class="o">-</span><span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="o">-</span><span class="n">log_prob</span><span class="p">)</span>
                 <span class="k">else</span><span class="p">:</span>
-                    <span class="n">entropy_loss</span> <span class="o">=</span> <span class="o">-</span><span class="n">th</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">entropy</span><span class="p">)</span>
+                    <span class="n">entropy_loss</span> <span class="o">=</span> <span class="o">-</span><span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">entropy</span><span class="p">)</span>
 
                 <span class="n">entropy_losses</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">entropy_loss</span><span class="o">.</span><span class="n">item</span><span class="p">())</span>
 
-                <span class="c1"># Context loss for ADAP algorithm</span>
-                <span class="n">context_loss</span> <span class="o">=</span> <span class="n">get_context_kl_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                                                   <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="p">,</span> <span class="n">rollout_data</span><span class="p">)</span>
-
-                <span class="n">context_kl_divs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">context_loss</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">())</span>
+                <span class="c1"># Context loss for ADAP</span>
+                <span class="n">context_loss</span> <span class="o">=</span> <span class="n">get_context_kl_loss</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="p">,</span> <span class="n">rollout_data</span>
+                <span class="p">)</span>
+                <span class="n">context_kl_divs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">context_loss</span><span class="o">.</span><span class="n">item</span><span class="p">())</span>
 
-                <span class="n">loss</span> <span class="o">=</span> <span class="n">policy_loss</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">ent_coef</span> <span class="o">*</span> <span class="n">entropy_loss</span> \
-                    <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">vf_coef</span> <span class="o">*</span> <span class="n">value_loss</span> \
+                <span class="n">loss</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">policy_loss</span>
+                    <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">ent_coef</span> <span class="o">*</span> <span class="n">entropy_loss</span>
+                    <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">vf_coef</span> <span class="o">*</span> <span class="n">value_loss</span>
                     <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_loss_coeff</span> <span class="o">*</span> <span class="n">context_loss</span>
+                <span class="p">)</span>
 
-                <span class="c1"># Calculate approximate form of reverse KL Divergence</span>
-                <span class="k">with</span> <span class="n">th</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
                     <span class="n">log_ratio</span> <span class="o">=</span> <span class="n">log_prob</span> <span class="o">-</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_log_prob</span>
-                    <span class="n">approx_kl_div</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span>
-                        <span class="p">(</span><span class="n">th</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">log_ratio</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="n">log_ratio</span><span class="p">)</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+                    <span class="n">approx_kl_div</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">((</span><span class="n">torch</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">log_ratio</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="n">log_ratio</span><span class="p">)</span>
+                        <span class="o">.</span><span class="n">cpu</span><span class="p">()</span>
+                        <span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+                    <span class="p">)</span>
                     <span class="n">approx_kl_divs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">approx_kl_div</span><span class="p">)</span>
 
-                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> \
-                        <span class="n">approx_kl_div</span> <span class="o">&gt;</span> <span class="mf">1.5</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span><span class="p">:</span>
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                    <span class="ow">and</span> <span class="n">approx_kl_div</span> <span class="o">&gt;</span> <span class="mf">1.5</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span>
+                <span class="p">):</span>
                     <span class="n">continue_training</span> <span class="o">=</span> <span class="kc">False</span>
                     <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">verbose</span> <span class="o">&gt;=</span> <span class="mi">1</span><span class="p">:</span>
                         <span class="nb">print</span><span class="p">(</span>
-                            <span class="sa">f</span><span class="s2">&quot;Early stopping at step </span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2"> due </span><span class="se">\</span>
-<span class="s2">                            to reaching max kl: </span><span class="si">{</span><span class="n">approx_kl_div</span><span class="si">:</span><span class="s2"> .2f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+                            <span class="sa">f</span><span class="s2">&quot;Early stopping at step </span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2"> due to </span><span class="se">\</span>
+<span class="s2">                            reaching max kl: </span><span class="si">{</span><span class="n">approx_kl_div</span><span class="si">:</span><span class="s2">.2f</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
                     <span class="k">break</span>
 
                 <span class="c1"># Optimization step</span>
                 <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
                 <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
                 <span class="c1"># Clip grad norm</span>
-                <span class="n">th</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">clip_grad_norm_</span><span class="p">(</span>
-                    <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_grad_norm</span><span class="p">)</span>
+                <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">clip_grad_norm_</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_grad_norm</span>
+                <span class="p">)</span>
                 <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
 
+            <span class="bp">self</span><span class="o">.</span><span class="n">_n_updates</span> <span class="o">+=</span> <span class="mi">1</span>
             <span class="k">if</span> <span class="ow">not</span> <span class="n">continue_training</span><span class="p">:</span>
                 <span class="k">break</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">_n_updates</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_epochs</span>
         <span class="n">explained_var</span> <span class="o">=</span> <span class="n">explained_variance</span><span class="p">(</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">rollout_buffer</span><span class="o">.</span><span class="n">values</span><span class="o">.</span><span class="n">flatten</span><span class="p">(),</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">rollout_buffer</span><span class="o">.</span><span class="n">returns</span><span class="o">.</span><span class="n">flatten</span><span class="p">())</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">rollout_buffer</span><span class="o">.</span><span class="n">returns</span><span class="o">.</span><span class="n">flatten</span><span class="p">(),</span>
+        <span class="p">)</span>
 
         <span class="c1"># Logs</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/entropy_loss&quot;</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">entropy_losses</span><span class="p">))</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/policy_gradient_loss&quot;</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">pg_losses</span><span class="p">))</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/value_loss&quot;</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">value_losses</span><span class="p">))</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/approx_kl&quot;</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">approx_kl_divs</span><span class="p">))</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/context_kl_loss&quot;</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">context_kl_divs</span><span class="p">))</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/clip_fraction&quot;</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">clip_fractions</span><span class="p">))</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/loss&quot;</span><span class="p">,</span> <span class="n">loss</span><span class="o">.</span><span class="n">item</span><span class="p">())</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/explained_variance&quot;</span><span class="p">,</span> <span class="n">explained_var</span><span class="p">)</span>
         <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="p">,</span> <span class="s2">&quot;log_std&quot;</span><span class="p">):</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
-                <span class="s2">&quot;train/std&quot;</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">log_std</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">())</span>
+                <span class="s2">&quot;train/std&quot;</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">log_std</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+            <span class="p">)</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/n_updates&quot;</span><span class="p">,</span>
-                           <span class="bp">self</span><span class="o">.</span><span class="n">_n_updates</span><span class="p">,</span> <span class="n">exclude</span><span class="o">=</span><span class="s2">&quot;tensorboard&quot;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
+            <span class="s2">&quot;train/n_updates&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">_n_updates</span><span class="p">,</span> <span class="n">exclude</span><span class="o">=</span><span class="s2">&quot;tensorboard&quot;</span>
+        <span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/clip_range&quot;</span><span class="p">,</span> <span class="n">clip_range</span><span class="p">)</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/clip_range_vf&quot;</span><span class="p">,</span> <span class="n">clip_range_vf</span><span class="p">)</span></div>
 
 
-    <span class="n">_last_obs</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span>
-    <span class="n">_last_episode_starts</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span>
-    <span class="n">full_obs_shape</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="p">]]</span>
-
-<div class="viewcode-block" id="ADAP.collect_rollouts">
-<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html#pantheonrl.algos.adap.adap_learn.ADAP.collect_rollouts">[docs]</a>
-    <span class="k">def</span> <span class="nf">collect_rollouts</span><span class="p">(</span>
-        <span class="bp">self</span><span class="p">,</span>
-        <span class="n">env</span><span class="p">:</span> <span class="n">VecEnv</span><span class="p">,</span>
-        <span class="n">callback</span><span class="p">:</span> <span class="n">BaseCallback</span><span class="p">,</span>
-        <span class="n">rollout_buffer</span><span class="p">:</span> <span class="n">RolloutBuffer</span><span class="p">,</span>
-        <span class="n">n_rollout_steps</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
-    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Nearly identical to OnPolicyAlgorithm&#39;s collect_rollouts, but it also</span>
-<span class="sd">        resamples the context every episode.</span>
-
-<span class="sd">        Collect experiences using the current policy and fill a</span>
-<span class="sd">        ``RolloutBuffer``.</span>
-<span class="sd">        The term rollout here refers to the model-free notion and should not</span>
-<span class="sd">        be used with the concept of rollout used in model-based RL or planning.</span>
-<span class="sd">        :param env: The training environment</span>
-<span class="sd">        :param callback: Callback that will be called at each step</span>
-<span class="sd">            (and at the beginning and end of the rollout)</span>
-<span class="sd">        :param rollout_buffer: Buffer to fill with rollouts</span>
-<span class="sd">        :param n_steps: Number of experiences to collect per environment</span>
-<span class="sd">        :return: True if function returned with at least `n_rollout_steps`</span>
-<span class="sd">            collected, False if callback terminated rollout prematurely.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;No previous observation provided&quot;</span>
-        <span class="n">n_steps</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">full_obs_shape</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">full_obs_shape</span> <span class="o">=</span> <span class="p">(</span>
-                <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">obs_shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">,)</span>
-
-        <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">obs_shape</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">full_obs_shape</span><span class="p">)</span>
-
-        <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
-        <span class="c1"># Sample new weights for the state dependent exploration</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_sde</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">reset_noise</span><span class="p">(</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span><span class="p">)</span>
-
-        <span class="n">callback</span><span class="o">.</span><span class="n">on_rollout_start</span><span class="p">()</span>
-
-        <span class="k">while</span> <span class="n">n_steps</span> <span class="o">&lt;</span> <span class="n">n_rollout_steps</span><span class="p">:</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_sde</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_sample_freq</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> \
-                    <span class="n">n_steps</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_sample_freq</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-                <span class="c1"># Sample a new noise matrix</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">reset_noise</span><span class="p">(</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span><span class="p">)</span>
-
-            <span class="k">with</span> <span class="n">th</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
-                <span class="c1"># Convert to pytorch tensor or to TensorDict</span>
-                <span class="n">obs_tensor</span> <span class="o">=</span> <span class="n">obs_as_tensor</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-                <span class="n">actions</span><span class="p">,</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_probs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">forward</span><span class="p">(</span><span class="n">obs_tensor</span><span class="p">)</span>
-            <span class="n">actions</span> <span class="o">=</span> <span class="n">actions</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
-
-            <span class="c1"># Rescale and perform action</span>
-            <span class="n">clipped_actions</span> <span class="o">=</span> <span class="n">actions</span>
-            <span class="c1"># Clip the actions to avoid out of bound error</span>
-            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span> <span class="n">gym</span><span class="o">.</span><span class="n">spaces</span><span class="o">.</span><span class="n">Box</span><span class="p">):</span>
-                <span class="n">clipped_actions</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span>
-                    <span class="n">actions</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">low</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">high</span><span class="p">)</span>
-
-            <span class="n">new_obs</span><span class="p">,</span> <span class="n">rewards</span><span class="p">,</span> <span class="n">dones</span><span class="p">,</span> <span class="n">infos</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">clipped_actions</span><span class="p">)</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span> <span class="o">+=</span> <span class="n">env</span><span class="o">.</span><span class="n">num_envs</span>
-
-            <span class="c1"># Give access to local variables</span>
-            <span class="n">callback</span><span class="o">.</span><span class="n">update_locals</span><span class="p">(</span><span class="nb">locals</span><span class="p">())</span>
-            <span class="k">if</span> <span class="n">callback</span><span class="o">.</span><span class="n">on_step</span><span class="p">()</span> <span class="ow">is</span> <span class="kc">False</span><span class="p">:</span>
-                <span class="k">return</span> <span class="kc">False</span>
-
-            <span class="bp">self</span><span class="o">.</span><span class="n">_update_info_buffer</span><span class="p">(</span><span class="n">infos</span><span class="p">)</span>
-            <span class="n">n_steps</span> <span class="o">+=</span> <span class="mi">1</span>
-
-            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span> <span class="n">gym</span><span class="o">.</span><span class="n">spaces</span><span class="o">.</span><span class="n">Discrete</span><span class="p">):</span>
-                <span class="c1"># Reshape in case of discrete action</span>
-                <span class="n">actions</span> <span class="o">=</span> <span class="n">actions</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-            <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
-                                <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span><span class="p">,</span>
-                                 <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">get_context</span><span class="p">()),</span>
-                                <span class="n">axis</span><span class="o">=</span><span class="kc">None</span><span class="p">),</span>
-                               <span class="n">actions</span><span class="p">,</span> <span class="n">rewards</span><span class="p">,</span>
-                               <span class="bp">self</span><span class="o">.</span><span class="n">_last_episode_starts</span><span class="p">,</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_probs</span><span class="p">)</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span> <span class="o">=</span> <span class="n">new_obs</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_last_episode_starts</span> <span class="o">=</span> <span class="n">dones</span>
-
-            <span class="c1"># ADAP CHANGE: resample context</span>
-            <span class="k">if</span> <span class="n">dones</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span>
-                <span class="n">sampled_context</span> <span class="o">=</span> <span class="n">SAMPLERS</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">context_sampler</span><span class="p">](</span>
-                    <span class="n">ctx_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">,</span> <span class="n">num</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">torch</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">set_context</span><span class="p">(</span><span class="n">sampled_context</span><span class="p">)</span>
-
-        <span class="k">with</span> <span class="n">th</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
-            <span class="c1"># Compute value for the last timestep</span>
-            <span class="n">obs_tensor</span> <span class="o">=</span> <span class="n">obs_as_tensor</span><span class="p">(</span><span class="n">new_obs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-            <span class="n">_</span><span class="p">,</span> <span class="n">values</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">forward</span><span class="p">(</span><span class="n">obs_tensor</span><span class="p">)</span>
-
-        <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">compute_returns_and_advantage</span><span class="p">(</span>
-            <span class="n">last_values</span><span class="o">=</span><span class="n">values</span><span class="p">,</span> <span class="n">dones</span><span class="o">=</span><span class="n">dones</span><span class="p">)</span>
-
-        <span class="n">callback</span><span class="o">.</span><span class="n">on_rollout_end</span><span class="p">()</span>
-
-        <span class="k">return</span> <span class="kc">True</span></div>
-
-
 <div class="viewcode-block" id="ADAP.learn">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html#pantheonrl.algos.adap.adap_learn.ADAP.learn">[docs]</a>
     <span class="k">def</span> <span class="nf">learn</span><span class="p">(</span>
@@ -566,23 +583,17 @@ <h1>Source code for pantheonrl.algos.adap.adap_learn</h1><div class="highlight">
         <span class="n">total_timesteps</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
         <span class="n">callback</span><span class="p">:</span> <span class="n">MaybeCallback</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">log_interval</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
-        <span class="n">eval_env</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">GymEnv</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="n">eval_freq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span>
-        <span class="n">n_eval_episodes</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">5</span><span class="p">,</span>
         <span class="n">tb_log_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;ADAP&quot;</span><span class="p">,</span>
-        <span class="n">eval_log_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">reset_num_timesteps</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-    <span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;ADAP&quot;</span><span class="p">:</span>
-        <span class="k">return</span> <span class="nb">super</span><span class="p">(</span><span class="n">ADAP</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">learn</span><span class="p">(</span>
+        <span class="n">progress_bar</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="k">return</span> <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">learn</span><span class="p">(</span>
             <span class="n">total_timesteps</span><span class="o">=</span><span class="n">total_timesteps</span><span class="p">,</span>
             <span class="n">callback</span><span class="o">=</span><span class="n">callback</span><span class="p">,</span>
             <span class="n">log_interval</span><span class="o">=</span><span class="n">log_interval</span><span class="p">,</span>
-            <span class="n">eval_env</span><span class="o">=</span><span class="n">eval_env</span><span class="p">,</span>
-            <span class="n">eval_freq</span><span class="o">=</span><span class="n">eval_freq</span><span class="p">,</span>
-            <span class="n">n_eval_episodes</span><span class="o">=</span><span class="n">n_eval_episodes</span><span class="p">,</span>
             <span class="n">tb_log_name</span><span class="o">=</span><span class="n">tb_log_name</span><span class="p">,</span>
-            <span class="n">eval_log_path</span><span class="o">=</span><span class="n">eval_log_path</span><span class="p">,</span>
             <span class="n">reset_num_timesteps</span><span class="o">=</span><span class="n">reset_num_timesteps</span><span class="p">,</span>
+            <span class="n">progress_bar</span><span class="o">=</span><span class="n">progress_bar</span><span class="p">,</span>
         <span class="p">)</span></div>
 </div>
 
diff --git a/docs_build/build/html/_modules/pantheonrl/algos/adap/agent.html b/docs_build/build/html/_modules/pantheonrl/algos/adap/agent.html
index 2772f16..7e7c01a 100644
--- a/docs_build/build/html/_modules/pantheonrl/algos/adap/agent.html
+++ b/docs_build/build/html/_modules/pantheonrl/algos/adap/agent.html
@@ -74,21 +74,16 @@
            <div itemprop="articleBody">
              
   <h1>Source code for pantheonrl.algos.adap.agent</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Optional</span>
-
-<span class="kn">from</span> <span class="nn">collections</span> <span class="kn">import</span> <span class="n">deque</span>
+<span></span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">Module defining the ADAP partner agent.</span>
+<span class="sd">&quot;&quot;&quot;</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Optional</span>
 
 <span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-<span class="kn">import</span> <span class="nn">torch</span> <span class="k">as</span> <span class="nn">th</span>
-
-<span class="kn">from</span> <span class="nn">pantheonrl.common.util</span> <span class="kn">import</span> <span class="p">(</span><span class="n">action_from_policy</span><span class="p">,</span> <span class="n">clip_actions</span><span class="p">,</span>
-                                    <span class="n">resample_noise</span><span class="p">)</span>
-
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.utils</span> <span class="kn">import</span> <span class="n">configure_logger</span>
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.utils</span> <span class="kn">import</span> <span class="n">safe_mean</span>
 
 <span class="kn">from</span> <span class="nn">pantheonrl.common.agents</span> <span class="kn">import</span> <span class="n">OnPolicyAgent</span>
 <span class="kn">from</span> <span class="nn">pantheonrl.common.observation</span> <span class="kn">import</span> <span class="n">Observation</span>
+
 <span class="kn">from</span> <span class="nn">.adap_learn</span> <span class="kn">import</span> <span class="n">ADAP</span>
 <span class="kn">from</span> <span class="nn">.util</span> <span class="kn">import</span> <span class="n">SAMPLERS</span>
 <span class="kn">from</span> <span class="nn">.policies</span> <span class="kn">import</span> <span class="n">AdapPolicy</span>
@@ -104,133 +99,68 @@ <h1>Source code for pantheonrl.algos.adap.agent</h1><div class="highlight"><pre>
 <span class="sd">    from ``OnPolicyAlgorithm``.</span>
 
 <span class="sd">    :param model: Model representing the agent&#39;s learning algorithm</span>
+<span class="sd">    :param log_interval: Optional log interval for policy logging</span>
+<span class="sd">    :param working_timesteps: Estimate for number of timesteps to train for.</span>
+<span class="sd">    :param callback: Optional callback fed into the OnPolicyAlgorithm</span>
+<span class="sd">    :param tb_log_name: Name for tensorboard log</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">model</span><span class="p">:</span> <span class="n">ADAP</span><span class="p">,</span>
-                 <span class="n">log_interval</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                 <span class="n">tensorboard_log</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                 <span class="n">tb_log_name</span><span class="o">=</span><span class="s2">&quot;AdapAgent&quot;</span><span class="p">,</span>
-                 <span class="n">latent_syncer</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">AdapPolicy</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_last_episode_starts</span> <span class="o">=</span> <span class="p">[</span><span class="kc">True</span><span class="p">]</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">values</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">empty</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">set_logger</span><span class="p">(</span><span class="n">configure_logger</span><span class="p">(</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">verbose</span><span class="p">,</span> <span class="n">tensorboard_log</span><span class="p">,</span> <span class="n">tb_log_name</span><span class="p">))</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">name</span> <span class="o">=</span> <span class="n">tb_log_name</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">log_interval</span> <span class="o">=</span> <span class="n">log_interval</span> <span class="ow">or</span> <span class="p">(</span><span class="mi">1</span> <span class="k">if</span> <span class="n">model</span><span class="o">.</span><span class="n">verbose</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">iteration</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">ep_info_buffer</span> <span class="o">=</span> <span class="n">deque</span><span class="p">([{</span><span class="s2">&quot;r&quot;</span><span class="p">:</span> <span class="mi">0</span><span class="p">,</span> <span class="s2">&quot;l&quot;</span><span class="p">:</span> <span class="mi">0</span><span class="p">}],</span> <span class="n">maxlen</span><span class="o">=</span><span class="mi">100</span><span class="p">)</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">model</span><span class="p">:</span> <span class="n">ADAP</span><span class="p">,</span>
+        <span class="n">log_interval</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">working_timesteps</span><span class="o">=</span><span class="mi">1000</span><span class="p">,</span>
+        <span class="n">callback</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">tb_log_name</span><span class="o">=</span><span class="s2">&quot;AdapAgent&quot;</span><span class="p">,</span>
+        <span class="n">latent_syncer</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">AdapPolicy</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">model</span><span class="p">,</span> <span class="n">log_interval</span><span class="p">,</span> <span class="n">working_timesteps</span><span class="p">,</span> <span class="n">callback</span><span class="p">,</span> <span class="n">tb_log_name</span>
+        <span class="p">)</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">latent_syncer</span> <span class="o">=</span> <span class="n">latent_syncer</span>
 
         <span class="n">buf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">rollout_buffer</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">full_obs_shape</span> <span class="o">=</span> <span class="p">(</span>
-            <span class="n">buf</span><span class="o">.</span><span class="n">obs_shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">context_size</span><span class="p">,)</span>
+            <span class="n">buf</span><span class="o">.</span><span class="n">obs_shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">context_size</span><span class="p">,</span>
+        <span class="p">)</span>
         <span class="n">buf</span><span class="o">.</span><span class="n">obs_shape</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">full_obs_shape</span>
         <span class="n">buf</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
 
 <div class="viewcode-block" id="AdapAgent.get_action">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.agent.AdapAgent.html#pantheonrl.algos.adap.agent.AdapAgent.get_action">[docs]</a>
-    <span class="k">def</span> <span class="nf">get_action</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">Observation</span><span class="p">,</span> <span class="n">record</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+    <span class="k">def</span> <span class="nf">get_action</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">Observation</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Return an action given an observation.</span>
 
-<span class="sd">        When `record` is True, the agent saves the last transition into its</span>
-<span class="sd">        buffer. It also updates the model if the buffer is full.</span>
+<span class="sd">        The agent saves the last transition into its buffer. It also updates</span>
+<span class="sd">        the model if the buffer is full.</span>
 
 <span class="sd">        :param obs: The observation to use</span>
-<span class="sd">        :param record: Whether to record the obs, action (True when training)</span>
 <span class="sd">        :returns: The action to take</span>
 <span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">obs</span> <span class="o">=</span> <span class="n">obs</span><span class="o">.</span><span class="n">obs</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">latent_syncer</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">set_context</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">latent_syncer</span><span class="o">.</span><span class="n">get_context</span><span class="p">())</span>
-
-        <span class="n">buf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">rollout_buffer</span>
-
-        <span class="c1"># train the model if the buffer is full</span>
-        <span class="k">if</span> <span class="n">record</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">n_steps</span><span class="p">:</span>
-            <span class="n">buf</span><span class="o">.</span><span class="n">compute_returns_and_advantage</span><span class="p">(</span>
-                <span class="n">last_values</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">values</span><span class="p">,</span>
-                <span class="n">dones</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_last_episode_starts</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">set_context</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">latent_syncer</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">get_context</span><span class="p">()</span>
             <span class="p">)</span>
-
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">log_interval</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> \
-                    <span class="bp">self</span><span class="o">.</span><span class="n">iteration</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">log_interval</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
-                    <span class="s2">&quot;name&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">name</span><span class="p">,</span> <span class="n">exclude</span><span class="o">=</span><span class="s2">&quot;tensorboard&quot;</span><span class="p">)</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
-                    <span class="s2">&quot;time/iterations&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">iteration</span><span class="p">,</span> <span class="n">exclude</span><span class="o">=</span><span class="s2">&quot;tensorboard&quot;</span><span class="p">)</span>
-
-                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> \
-                        <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-                    <span class="n">last_exclude</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="o">.</span><span class="n">pop</span><span class="p">()</span>
-                    <span class="n">rews</span> <span class="o">=</span> <span class="p">[</span><span class="n">ep</span><span class="p">[</span><span class="s2">&quot;r&quot;</span><span class="p">]</span> <span class="k">for</span> <span class="n">ep</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">]</span>
-                    <span class="n">lens</span> <span class="o">=</span> <span class="p">[</span><span class="n">ep</span><span class="p">[</span><span class="s2">&quot;l&quot;</span><span class="p">]</span> <span class="k">for</span> <span class="n">ep</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">]</span>
-                    <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
-                        <span class="s2">&quot;rollout/ep_rew_mean&quot;</span><span class="p">,</span> <span class="n">safe_mean</span><span class="p">(</span><span class="n">rews</span><span class="p">))</span>
-                    <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
-                        <span class="s2">&quot;rollout/ep_len_mean&quot;</span><span class="p">,</span> <span class="n">safe_mean</span><span class="p">(</span><span class="n">lens</span><span class="p">))</span>
-                    <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">last_exclude</span><span class="p">)</span>
-
-                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
-                    <span class="s2">&quot;time/total_timesteps&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span><span class="p">,</span>
-                    <span class="n">exclude</span><span class="o">=</span><span class="s2">&quot;tensorboard&quot;</span><span class="p">)</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">dump</span><span class="p">(</span><span class="n">step</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span><span class="p">)</span>
-
-            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">train</span><span class="p">()</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">iteration</span> <span class="o">+=</span> <span class="mi">1</span>
-            <span class="n">buf</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span> <span class="o">=</span> <span class="mi">0</span>
-
-        <span class="n">resample_noise</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="p">)</span>
-
-        <span class="n">actions</span><span class="p">,</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_probs</span> <span class="o">=</span> <span class="n">action_from_policy</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">policy</span><span class="p">)</span>
-
-        <span class="c1"># modify the rollout buffer with newest info</span>
-        <span class="n">obs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">concatenate</span><span class="p">((</span><span class="n">np</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)),</span>
-                              <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">get_context</span><span class="p">()),</span>
-                             <span class="n">axis</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">record</span><span class="p">:</span>
-            <span class="n">obs_shape</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">observation_space</span><span class="o">.</span><span class="n">shape</span>
-            <span class="n">act_shape</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">shape</span>
-            <span class="n">buf</span><span class="o">.</span><span class="n">add</span><span class="p">(</span>
-                <span class="n">np</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="p">(</span><span class="mi">1</span><span class="p">,)</span> <span class="o">+</span> <span class="n">obs_shape</span><span class="p">),</span>
-                <span class="n">np</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">actions</span><span class="p">,</span> <span class="p">(</span><span class="mi">1</span><span class="p">,)</span> <span class="o">+</span> <span class="n">act_shape</span><span class="p">),</span>
-                <span class="p">[</span><span class="mi">0</span><span class="p">],</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">_last_episode_starts</span><span class="p">,</span>
-                <span class="n">values</span><span class="p">,</span>
-                <span class="n">log_probs</span>
-            <span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span> <span class="o">+=</span> <span class="mi">1</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span> <span class="o">+=</span> <span class="mi">1</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">values</span> <span class="o">=</span> <span class="n">values</span>
-        <span class="k">return</span> <span class="n">clip_actions</span><span class="p">(</span><span class="n">actions</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span></div>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obs</span><span class="o">.</span><span class="n">obs</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">):</span>
+            <span class="n">obs</span><span class="o">.</span><span class="n">obs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="n">obs</span><span class="o">.</span><span class="n">obs</span><span class="p">])</span>
+        <span class="n">obs</span><span class="o">.</span><span class="n">obs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">obs</span><span class="o">.</span><span class="n">obs</span><span class="p">,</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)),</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">get_context</span><span class="p">()),</span>
+            <span class="n">axis</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">get_action</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span></div>
 
 
 <div class="viewcode-block" id="AdapAgent.update">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.agent.AdapAgent.html#pantheonrl.algos.adap.agent.AdapAgent.update">[docs]</a>
     <span class="k">def</span> <span class="nf">update</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">reward</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">done</span><span class="p">:</span> <span class="nb">bool</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Add new rewards and done information.</span>
-
-<span class="sd">        The rewards are added to buffer entry corresponding to the most recent</span>
-<span class="sd">        recorded action.</span>
-
-<span class="sd">        :param reward: The reward receieved from the previous action step</span>
-<span class="sd">        :param done: Whether the game is done</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">AdapAgent</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">)</span>
 
         <span class="k">if</span> <span class="n">done</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">latent_syncer</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
             <span class="n">sampled_context</span> <span class="o">=</span> <span class="n">SAMPLERS</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">context_sampler</span><span class="p">](</span>
-                <span class="n">ctx_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">context_size</span><span class="p">,</span> <span class="n">num</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">torch</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                <span class="n">ctx_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">context_size</span><span class="p">,</span> <span class="n">num</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">use_torch</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">set_context</span><span class="p">(</span><span class="n">sampled_context</span><span class="p">)</span></div>
 </div>
 
diff --git a/docs_build/build/html/_modules/pantheonrl/algos/adap/policies.html b/docs_build/build/html/_modules/pantheonrl/algos/adap/policies.html
index 7136707..387dd81 100644
--- a/docs_build/build/html/_modules/pantheonrl/algos/adap/policies.html
+++ b/docs_build/build/html/_modules/pantheonrl/algos/adap/policies.html
@@ -74,52 +74,60 @@
            <div itemprop="articleBody">
              
   <h1>Source code for pantheonrl.algos.adap.policies</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Type</span><span class="p">,</span> <span class="n">Union</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span>
-<span class="kn">from</span> <span class="nn">itertools</span> <span class="kn">import</span> <span class="n">zip_longest</span>
+<span></span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">Module defining the Policy for ADAP</span>
+<span class="sd">&quot;&quot;&quot;</span>
+<span class="c1"># pylint: disable=locally-disabled, not-callable</span>
 
-<span class="kn">import</span> <span class="nn">torch</span> <span class="k">as</span> <span class="nn">th</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Type</span><span class="p">,</span> <span class="n">Union</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span>
+
+<span class="kn">import</span> <span class="nn">torch</span>
 <span class="kn">import</span> <span class="nn">gymnasium</span> <span class="k">as</span> <span class="nn">gym</span>
 <span class="kn">from</span> <span class="nn">torch</span> <span class="kn">import</span> <span class="n">nn</span>
 
-<span class="kn">from</span> <span class="nn">torch.optim.optimizer</span> <span class="kn">import</span> <span class="n">Optimizer</span>
-<span class="kn">from</span> <span class="nn">torch.optim.adam</span> <span class="kn">import</span> <span class="n">Adam</span>
-
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.utils</span> <span class="kn">import</span> <span class="n">get_device</span>
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.policies</span> <span class="kn">import</span> <span class="n">ActorCriticPolicy</span>
+<span class="kn">from</span> <span class="nn">stable_baselines3.common.policies</span> <span class="kn">import</span> <span class="n">ActorCriticPolicy</span><span class="p">,</span> <span class="n">BasePolicy</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.type_aliases</span> <span class="kn">import</span> <span class="n">Schedule</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.torch_layers</span> <span class="kn">import</span> <span class="p">(</span>
     <span class="n">BaseFeaturesExtractor</span><span class="p">,</span>
     <span class="n">FlattenExtractor</span><span class="p">,</span>
-    <span class="n">MlpExtractor</span>
+    <span class="n">MlpExtractor</span><span class="p">,</span>
 <span class="p">)</span>
 
 
 <div class="viewcode-block" id="AdapPolicy">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy">[docs]</a>
 <span class="k">class</span> <span class="nc">AdapPolicy</span><span class="p">(</span><span class="n">ActorCriticPolicy</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Base Policy for the ADAP Actor-critic policy</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">observation_space</span><span class="p">:</span> <span class="n">gym</span><span class="o">.</span><span class="n">spaces</span><span class="o">.</span><span class="n">Space</span><span class="p">,</span>
         <span class="n">action_space</span><span class="p">:</span> <span class="n">gym</span><span class="o">.</span><span class="n">spaces</span><span class="o">.</span><span class="n">Space</span><span class="p">,</span>
         <span class="n">lr_schedule</span><span class="p">:</span> <span class="n">Schedule</span><span class="p">,</span>
-        <span class="n">net_arch</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">net_arch</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">activation_fn</span><span class="p">:</span> <span class="n">Type</span><span class="p">[</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">]</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Tanh</span><span class="p">,</span>
         <span class="n">ortho_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
         <span class="n">use_sde</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
         <span class="n">log_std_init</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
         <span class="n">full_std</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-        <span class="n">sde_net_arch</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">use_expln</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
         <span class="n">squash_output</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-        <span class="n">features_extractor_class</span><span class="p">:</span> <span class="n">Type</span><span class="p">[</span><span class="n">BaseFeaturesExtractor</span><span class="p">]</span> <span class="o">=</span>
-        <span class="n">FlattenExtractor</span><span class="p">,</span>
+        <span class="n">features_extractor_class</span><span class="p">:</span> <span class="n">Type</span><span class="p">[</span>
+            <span class="n">BaseFeaturesExtractor</span>
+        <span class="p">]</span> <span class="o">=</span> <span class="n">FlattenExtractor</span><span class="p">,</span>
         <span class="n">features_extractor_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">share_features_extractor</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
         <span class="n">normalize_images</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-        <span class="n">optimizer_class</span><span class="p">:</span> <span class="n">Type</span><span class="p">[</span><span class="n">Optimizer</span><span class="p">]</span> <span class="o">=</span> <span class="n">Adam</span><span class="p">,</span>
+        <span class="n">optimizer_class</span><span class="p">:</span> <span class="n">Type</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Optimizer</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">,</span>
         <span class="n">optimizer_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="n">context_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">3</span>
+        <span class="n">context_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
     <span class="p">):</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span> <span class="o">=</span> <span class="n">context_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">context</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span> <span class="o">=</span> <span class="kc">None</span>
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
             <span class="n">observation_space</span><span class="o">=</span><span class="n">observation_space</span><span class="p">,</span>
             <span class="n">action_space</span><span class="o">=</span><span class="n">action_space</span><span class="p">,</span>
@@ -130,21 +138,29 @@ <h1>Source code for pantheonrl.algos.adap.policies</h1><div class="highlight"><p
             <span class="n">use_sde</span><span class="o">=</span><span class="n">use_sde</span><span class="p">,</span>
             <span class="n">log_std_init</span><span class="o">=</span><span class="n">log_std_init</span><span class="p">,</span>
             <span class="n">full_std</span><span class="o">=</span><span class="n">full_std</span><span class="p">,</span>
-            <span class="n">sde_net_arch</span><span class="o">=</span><span class="n">sde_net_arch</span><span class="p">,</span>
             <span class="n">use_expln</span><span class="o">=</span><span class="n">use_expln</span><span class="p">,</span>
             <span class="n">squash_output</span><span class="o">=</span><span class="n">squash_output</span><span class="p">,</span>
             <span class="n">features_extractor_class</span><span class="o">=</span><span class="n">features_extractor_class</span><span class="p">,</span>
             <span class="n">features_extractor_kwargs</span><span class="o">=</span><span class="n">features_extractor_kwargs</span><span class="p">,</span>
+            <span class="n">share_features_extractor</span><span class="o">=</span><span class="n">share_features_extractor</span><span class="p">,</span>
             <span class="n">normalize_images</span><span class="o">=</span><span class="n">normalize_images</span><span class="p">,</span>
             <span class="n">optimizer_class</span><span class="o">=</span><span class="n">optimizer_class</span><span class="p">,</span>
             <span class="n">optimizer_kwargs</span><span class="o">=</span><span class="n">optimizer_kwargs</span><span class="p">,</span>
         <span class="p">)</span>
 
+<div class="viewcode-block" id="AdapPolicy.set_context">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy.set_context">[docs]</a>
     <span class="k">def</span> <span class="nf">set_context</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ctxt</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">context</span> <span class="o">=</span> <span class="n">ctxt</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Set the context&quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">context</span> <span class="o">=</span> <span class="n">ctxt</span></div>
 
+
+<div class="viewcode-block" id="AdapPolicy.get_context">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy.get_context">[docs]</a>
     <span class="k">def</span> <span class="nf">get_context</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">context</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Get the current context&quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">context</span></div>
+
 
     <span class="k">def</span> <span class="nf">_build_mlp_extractor</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -161,8 +177,9 @@ <h1>Source code for pantheonrl.algos.adap.policies</h1><div class="highlight"><p
             <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
         <span class="p">)</span>
 
-    <span class="k">def</span> <span class="nf">_get_latent</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                    <span class="n">obs</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+    <span class="k">def</span> <span class="nf">_get_latent</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Get the latent code (activations of the last layer of each network)</span>
 <span class="sd">        for the different networks.</span>
@@ -172,130 +189,169 @@ <h1>Source code for pantheonrl.algos.adap.policies</h1><div class="highlight"><p
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="c1"># Preprocess the observation if needed</span>
         <span class="n">features</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">extract_features</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
-        <span class="n">features</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span>
-            <span class="p">(</span><span class="n">features</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">context</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">features</span><span class="o">.</span><span class="n">size</span><span class="p">()[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">1</span><span class="p">)),</span>
-            <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">features</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">features</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">context</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">features</span><span class="o">.</span><span class="n">size</span><span class="p">()[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">1</span><span class="p">)),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span>
+        <span class="p">)</span>
         <span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">(</span><span class="n">features</span><span class="p">)</span>
 
-        <span class="c1"># Features for sde</span>
-        <span class="n">latent_sde</span> <span class="o">=</span> <span class="n">latent_pi</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_features_extractor</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">latent_sde</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_features_extractor</span><span class="p">(</span><span class="n">features</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_vf</span><span class="p">,</span> <span class="n">latent_sde</span>
+        <span class="k">return</span> <span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_vf</span>
+
+<div class="viewcode-block" id="AdapPolicy.forward">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy.forward">[docs]</a>
+    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Forward pass in all the networks (actor and critic)</span>
+
+<span class="sd">        :param obs: Observation</span>
+<span class="sd">        :param deterministic: Whether to sample or use deterministic actions</span>
+<span class="sd">        :return: action, value and log probability of the action</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># Preprocess the observation if needed</span>
+        <span class="n">latents</span> <span class="o">=</span> <span class="n">obs</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span> <span class="p">:]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span>
+        <span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">obs</span> <span class="o">=</span> <span class="n">obs</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">obs</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span>
+        <span class="p">)</span>
+        <span class="n">features</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">extract_features</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
+        <span class="n">latents</span> <span class="o">=</span> <span class="n">latents</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">features</span><span class="o">.</span><span class="n">device</span><span class="p">,</span> <span class="n">features</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="n">features</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">features</span><span class="p">,</span> <span class="n">latents</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">features</span><span class="o">.</span><span class="n">size</span><span class="p">()[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">1</span><span class="p">)),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">share_features_extractor</span><span class="p">:</span>
+            <span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">(</span><span class="n">features</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">pi_features</span><span class="p">,</span> <span class="n">vf_features</span> <span class="o">=</span> <span class="n">features</span>
+            <span class="n">latent_pi</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="o">.</span><span class="n">forward_actor</span><span class="p">(</span><span class="n">pi_features</span><span class="p">)</span>
+            <span class="n">latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="o">.</span><span class="n">forward_critic</span><span class="p">(</span><span class="n">vf_features</span><span class="p">)</span>
+        <span class="c1"># Evaluate the values for the given observations</span>
+        <span class="n">values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span><span class="p">(</span><span class="n">latent_vf</span><span class="p">)</span>
+        <span class="n">distribution</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_action_dist_from_latent</span><span class="p">(</span><span class="n">latent_pi</span><span class="p">)</span>
+        <span class="n">actions</span> <span class="o">=</span> <span class="n">distribution</span><span class="o">.</span><span class="n">get_actions</span><span class="p">(</span><span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+        <span class="n">log_prob</span> <span class="o">=</span> <span class="n">distribution</span><span class="o">.</span><span class="n">log_prob</span><span class="p">(</span><span class="n">actions</span><span class="p">)</span>
+        <span class="n">actions</span> <span class="o">=</span> <span class="n">actions</span><span class="o">.</span><span class="n">reshape</span><span class="p">((</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="o">*</span><span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">shape</span><span class="p">))</span>
+        <span class="k">return</span> <span class="n">actions</span><span class="p">,</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_prob</span></div>
+
+
+<div class="viewcode-block" id="AdapPolicy.predict_values">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy.predict_values">[docs]</a>
+    <span class="k">def</span> <span class="nf">predict_values</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get the estimated values according to the current policy given the observations.</span>
+
+<span class="sd">        :param obs: Observation</span>
+<span class="sd">        :return: the estimated values.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">latents</span> <span class="o">=</span> <span class="n">obs</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span> <span class="p">:]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span>
+        <span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">obs</span> <span class="o">=</span> <span class="n">obs</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">obs</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span>
+        <span class="p">)</span>
+        <span class="n">features</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">BasePolicy</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">extract_features</span><span class="p">(</span>
+            <span class="n">obs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">vf_features_extractor</span>
+        <span class="p">)</span>
+        <span class="n">latents</span> <span class="o">=</span> <span class="n">latents</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">features</span><span class="o">.</span><span class="n">device</span><span class="p">,</span> <span class="n">features</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="n">features</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">features</span><span class="p">,</span> <span class="n">latents</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">features</span><span class="o">.</span><span class="n">size</span><span class="p">()[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">1</span><span class="p">)),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span>
+        <span class="p">)</span>
+        <span class="n">latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="o">.</span><span class="n">forward_critic</span><span class="p">(</span><span class="n">features</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span><span class="p">(</span><span class="n">latent_vf</span><span class="p">)</span></div>
+
 
 <div class="viewcode-block" id="AdapPolicy.evaluate_actions">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy.evaluate_actions">[docs]</a>
-    <span class="k">def</span> <span class="nf">evaluate_actions</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                         <span class="n">obs</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
-                         <span class="n">actions</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span>
-                         <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+    <span class="k">def</span> <span class="nf">evaluate_actions</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">actions</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">Optional</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]]:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Evaluate actions according to the current policy,</span>
 <span class="sd">        given the observations.</span>
-<span class="sd">        :param obs:</span>
-<span class="sd">        :param actions:</span>
+
+<span class="sd">        :param obs: Observation</span>
+<span class="sd">        :param actions: Actions</span>
 <span class="sd">        :return: estimated value, log likelihood of taking those actions</span>
 <span class="sd">            and entropy of the action distribution.</span>
 <span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">features</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">extract_features</span><span class="p">(</span><span class="n">obs</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">])</span>
-        <span class="n">features</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span>
-            <span class="p">(</span><span class="n">features</span><span class="p">,</span> <span class="n">obs</span><span class="p">[:,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">:]),</span>
-            <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
-        <span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">(</span><span class="n">features</span><span class="p">)</span>
-
-        <span class="c1"># Features for sde</span>
-        <span class="n">latent_sde</span> <span class="o">=</span> <span class="n">latent_pi</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_features_extractor</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">latent_sde</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_features_extractor</span><span class="p">(</span><span class="n">features</span><span class="p">)</span>
-        <span class="n">distribution</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_action_dist_from_latent</span><span class="p">(</span><span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_sde</span><span class="p">)</span>
+        <span class="c1"># Preprocess the observation if needed</span>
+        <span class="n">latents</span> <span class="o">=</span> <span class="n">obs</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span> <span class="p">:]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span>
+        <span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">obs</span> <span class="o">=</span> <span class="n">obs</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">obs</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span>
+        <span class="p">)</span>
+        <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;NEW OBS&quot;</span><span class="p">,</span> <span class="n">obs</span><span class="p">)</span>
+        <span class="n">features</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">extract_features</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
+        <span class="n">latents</span> <span class="o">=</span> <span class="n">latents</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">features</span><span class="o">.</span><span class="n">device</span><span class="p">,</span> <span class="n">features</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="nb">print</span><span class="p">(</span><span class="n">features</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">latents</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">features</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">features</span><span class="p">,</span> <span class="n">latents</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">features</span><span class="o">.</span><span class="n">size</span><span class="p">()[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">1</span><span class="p">)),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span>
+        <span class="p">)</span>
+        <span class="nb">print</span><span class="p">(</span><span class="n">features</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">share_features_extractor</span><span class="p">:</span>
+            <span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">(</span><span class="n">features</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">pi_features</span><span class="p">,</span> <span class="n">vf_features</span> <span class="o">=</span> <span class="n">features</span>
+            <span class="n">latent_pi</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="o">.</span><span class="n">forward_actor</span><span class="p">(</span><span class="n">pi_features</span><span class="p">)</span>
+            <span class="n">latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="o">.</span><span class="n">forward_critic</span><span class="p">(</span><span class="n">vf_features</span><span class="p">)</span>
+        <span class="n">distribution</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_action_dist_from_latent</span><span class="p">(</span><span class="n">latent_pi</span><span class="p">)</span>
         <span class="n">log_prob</span> <span class="o">=</span> <span class="n">distribution</span><span class="o">.</span><span class="n">log_prob</span><span class="p">(</span><span class="n">actions</span><span class="p">)</span>
         <span class="n">values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span><span class="p">(</span><span class="n">latent_vf</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_prob</span><span class="p">,</span> <span class="n">distribution</span><span class="o">.</span><span class="n">entropy</span><span class="p">()</span></div>
+        <span class="n">entropy</span> <span class="o">=</span> <span class="n">distribution</span><span class="o">.</span><span class="n">entropy</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_prob</span><span class="p">,</span> <span class="n">entropy</span></div>
 </div>
 
 
 
 <div class="viewcode-block" id="MultModel">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel">[docs]</a>
-<span class="k">class</span> <span class="nc">MultModel</span><span class="p">(</span><span class="n">MlpExtractor</span><span class="p">):</span>
+<span class="k">class</span> <span class="nc">MultModel</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Neural Network representing multiplicative layers&quot;&quot;&quot;</span>
+
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-                    <span class="bp">self</span><span class="p">,</span>
-                    <span class="n">feature_dim</span><span class="p">,</span>
-                    <span class="n">net_arch</span><span class="p">,</span>
-                    <span class="n">activation_fn</span><span class="p">,</span>
-                    <span class="n">device</span><span class="p">,</span>
-                    <span class="n">context_size</span>
-                <span class="p">):</span>
-        <span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">obs_space_size</span> <span class="o">=</span> <span class="n">feature_dim</span> <span class="o">+</span> <span class="n">context_size</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">feature_dim</span><span class="p">,</span> <span class="n">net_arch</span><span class="p">,</span> <span class="n">activation_fn</span><span class="p">,</span> <span class="n">device</span><span class="p">,</span> <span class="n">context_size</span>
+    <span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span> <span class="o">=</span> <span class="n">context_size</span>
-
         <span class="n">device</span> <span class="o">=</span> <span class="n">get_device</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
-        <span class="n">shared_net</span><span class="p">,</span> <span class="n">policy_net</span><span class="p">,</span> <span class="n">value_net</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[],</span> <span class="p">[]</span>
-        <span class="c1"># Layer sizes of the network that only belongs to the policy network</span>
-        <span class="n">policy_only_layers</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="c1"># Layer sizes of the network that only belongs to the value network</span>
-        <span class="n">value_only_layers</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="n">last_layer_dim_shared</span> <span class="o">=</span> <span class="n">feature_dim</span>
-
-        <span class="c1"># Iterate through shared layers and build shared parts of the network</span>
-        <span class="k">for</span> <span class="n">layer</span> <span class="ow">in</span> <span class="n">net_arch</span><span class="p">:</span>
-            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">layer</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>  <span class="c1"># Check that this is a shared layer</span>
-                <span class="c1"># TODO: give layer a meaningful name</span>
-                <span class="c1"># add linear of size layer</span>
-                <span class="n">shared_net</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">last_layer_dim_shared</span><span class="p">,</span> <span class="n">layer</span><span class="p">))</span>
-                <span class="n">shared_net</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">activation_fn</span><span class="p">())</span>
-                <span class="n">last_layer_dim_shared</span> <span class="o">=</span> <span class="n">layer</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">layer</span><span class="p">,</span> <span class="nb">dict</span><span class="p">),</span> \
-                    <span class="s2">&quot;Error: the net_arch list can only contain ints and dicts&quot;</span>
-                <span class="k">if</span> <span class="s2">&quot;pi&quot;</span> <span class="ow">in</span> <span class="n">layer</span><span class="p">:</span>
-                    <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">layer</span><span class="p">[</span><span class="s2">&quot;pi&quot;</span><span class="p">],</span> <span class="nb">list</span><span class="p">),</span> \
-                        <span class="s2">&quot;Error: net_arch[-1][&#39;pi&#39;] must </span><span class="se">\</span>
-<span class="s2">                        contain a list of integers.&quot;</span>
-                    <span class="n">policy_only_layers</span> <span class="o">=</span> <span class="n">layer</span><span class="p">[</span><span class="s2">&quot;pi&quot;</span><span class="p">]</span>
-
-                <span class="k">if</span> <span class="s2">&quot;vf&quot;</span> <span class="ow">in</span> <span class="n">layer</span><span class="p">:</span>
-                    <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">layer</span><span class="p">[</span><span class="s2">&quot;vf&quot;</span><span class="p">],</span> <span class="nb">list</span><span class="p">),</span> \
-                        <span class="s2">&quot;Error: net_arch[-1][&#39;vf&#39;] must </span><span class="se">\</span>
-<span class="s2">                        contain a list of integers.&quot;</span>
-                    <span class="n">value_only_layers</span> <span class="o">=</span> <span class="n">layer</span><span class="p">[</span><span class="s2">&quot;vf&quot;</span><span class="p">]</span>
-                <span class="k">break</span>
-
-        <span class="n">last_layer_dim_pi</span> <span class="o">=</span> <span class="n">last_layer_dim_shared</span>
-        <span class="n">last_layer_dim_vf</span> <span class="o">=</span> <span class="n">last_layer_dim_shared</span>
-
-        <span class="c1"># Build the non-shared part of the network</span>
-        <span class="k">for</span> <span class="n">pi_layer_size</span><span class="p">,</span> <span class="n">vf_layer_size</span> <span class="ow">in</span> <span class="n">zip_longest</span><span class="p">(</span><span class="n">policy_only_layers</span><span class="p">,</span>
-                                                        <span class="n">value_only_layers</span><span class="p">):</span>
-            <span class="k">if</span> <span class="n">pi_layer_size</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">pi_layer_size</span><span class="p">,</span> <span class="nb">int</span><span class="p">),</span> \
-                    <span class="s2">&quot;Error: net_arch[-1][&#39;pi&#39;] must only contain integers.&quot;</span>
-                <span class="n">policy_net</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">last_layer_dim_pi</span><span class="p">,</span> <span class="n">pi_layer_size</span><span class="p">))</span>
-                <span class="n">policy_net</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">activation_fn</span><span class="p">())</span>
-                <span class="n">last_layer_dim_pi</span> <span class="o">=</span> <span class="n">pi_layer_size</span>
-
-            <span class="k">if</span> <span class="n">vf_layer_size</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">vf_layer_size</span><span class="p">,</span> <span class="nb">int</span><span class="p">),</span> \
-                    <span class="s2">&quot;Error: net_arch[-1][&#39;vf&#39;] must only contain integers.&quot;</span>
-                <span class="n">value_net</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">last_layer_dim_vf</span><span class="p">,</span> <span class="n">vf_layer_size</span><span class="p">))</span>
-                <span class="n">value_net</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">activation_fn</span><span class="p">())</span>
-                <span class="n">last_layer_dim_vf</span> <span class="o">=</span> <span class="n">vf_layer_size</span>
+        <span class="n">policy_net</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">value_net</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">last_layer_dim_pi</span> <span class="o">=</span> <span class="n">feature_dim</span>
+        <span class="n">last_layer_dim_vf</span> <span class="o">=</span> <span class="n">feature_dim</span>
+
+        <span class="c1"># save dimensions of layers in policy and value nets</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">net_arch</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+            <span class="c1"># Note: if key is not specificed, assume linear network</span>
+            <span class="n">pi_layers_dims</span> <span class="o">=</span> <span class="n">net_arch</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                <span class="s2">&quot;pi&quot;</span><span class="p">,</span> <span class="p">[]</span>
+            <span class="p">)</span>  <span class="c1"># Layer sizes of the policy network</span>
+            <span class="n">vf_layers_dims</span> <span class="o">=</span> <span class="n">net_arch</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                <span class="s2">&quot;vf&quot;</span><span class="p">,</span> <span class="p">[]</span>
+            <span class="p">)</span>  <span class="c1"># Layer sizes of the value network</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">pi_layers_dims</span> <span class="o">=</span> <span class="n">vf_layers_dims</span> <span class="o">=</span> <span class="n">net_arch</span>
+        <span class="c1"># Iterate through the policy layers and build the policy net</span>
+        <span class="k">for</span> <span class="n">curr_layer_dim</span> <span class="ow">in</span> <span class="n">pi_layers_dims</span><span class="p">:</span>
+            <span class="n">policy_net</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">last_layer_dim_pi</span><span class="p">,</span> <span class="n">curr_layer_dim</span><span class="p">))</span>
+            <span class="n">policy_net</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">activation_fn</span><span class="p">())</span>
+            <span class="n">last_layer_dim_pi</span> <span class="o">=</span> <span class="n">curr_layer_dim</span>
+        <span class="c1"># Iterate through the value layers and build the value net</span>
+        <span class="k">for</span> <span class="n">curr_layer_dim</span> <span class="ow">in</span> <span class="n">vf_layers_dims</span><span class="p">:</span>
+            <span class="n">value_net</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">last_layer_dim_vf</span><span class="p">,</span> <span class="n">curr_layer_dim</span><span class="p">))</span>
+            <span class="n">value_net</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">activation_fn</span><span class="p">())</span>
+            <span class="n">last_layer_dim_vf</span> <span class="o">=</span> <span class="n">curr_layer_dim</span>
 
         <span class="c1"># Save dim, used to create the distributions</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">latent_dim_pi</span> <span class="o">=</span> <span class="n">last_layer_dim_pi</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">latent_dim_vf</span> <span class="o">=</span> <span class="n">last_layer_dim_vf</span>
 
-        <span class="c1"># Create networks</span>
-        <span class="c1"># If list of layers is empty, the network is an Identity module</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">shared_net</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span><span class="o">*</span><span class="n">shared_net</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
-
         <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim1</span> <span class="o">=</span> <span class="n">policy_net</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">out_features</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">agent_branch_1</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span><span class="o">*</span><span class="n">policy_net</span><span class="p">[</span><span class="mi">0</span><span class="p">:</span><span class="mi">2</span><span class="p">])</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">agent_scaling</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span>
             <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim1</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">),</span>
-            <span class="n">activation_fn</span><span class="p">()</span>
+            <span class="n">activation_fn</span><span class="p">(),</span>
         <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">agent_branch_2</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span><span class="o">*</span><span class="n">policy_net</span><span class="p">[</span><span class="mi">2</span><span class="p">:])</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
 
@@ -303,51 +359,77 @@ <h1>Source code for pantheonrl.algos.adap.policies</h1><div class="highlight"><p
         <span class="bp">self</span><span class="o">.</span><span class="n">value_branch_1</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span><span class="o">*</span><span class="n">value_net</span><span class="p">[</span><span class="mi">0</span><span class="p">:</span><span class="mi">2</span><span class="p">])</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">value_scaling</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span>
             <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim2</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim2</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">),</span>
-            <span class="n">activation_fn</span><span class="p">()</span>
+            <span class="n">activation_fn</span><span class="p">(),</span>
         <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">value_branch_2</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span><span class="o">*</span><span class="n">value_net</span><span class="p">[</span><span class="mi">2</span><span class="p">:])</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
 
-    <span class="k">def</span> <span class="nf">get_input_size_excluding_ctx</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">obs_space_size</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span>
-
-    <span class="k">def</span> <span class="nf">get_input_size_inluding_ctx</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">obs_space_size</span>
-
-    <span class="k">def</span> <span class="nf">policies</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">observations</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
-                 <span class="n">contexts</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
-
+<div class="viewcode-block" id="MultModel.policies">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.policies">[docs]</a>
+    <span class="k">def</span> <span class="nf">policies</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">observations</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">contexts</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Returns the logits from the policy function&quot;&quot;&quot;</span>
         <span class="n">batch_size</span> <span class="o">=</span> <span class="n">observations</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
         <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">agent_branch_1</span><span class="p">(</span><span class="n">observations</span><span class="p">)</span>
         <span class="n">x_a</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">agent_scaling</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
         <span class="c1"># reshape to do context multiplication</span>
         <span class="n">x_a</span> <span class="o">=</span> <span class="n">x_a</span><span class="o">.</span><span class="n">view</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">))</span>
-        <span class="n">x_a_out</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">matmul</span><span class="p">(</span><span class="n">x_a</span><span class="p">,</span> <span class="n">contexts</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">x_a_out</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">matmul</span><span class="p">(</span><span class="n">x_a</span><span class="p">,</span> <span class="n">contexts</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
         <span class="n">logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">agent_branch_2</span><span class="p">(</span><span class="n">x</span> <span class="o">+</span> <span class="n">x_a_out</span><span class="p">)</span>
 
-        <span class="k">return</span> <span class="n">logits</span>
+        <span class="k">return</span> <span class="n">logits</span></div>
 
-    <span class="k">def</span> <span class="nf">values</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">observations</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
-               <span class="n">contexts</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
 
+<div class="viewcode-block" id="MultModel.values">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.values">[docs]</a>
+    <span class="k">def</span> <span class="nf">values</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">observations</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">contexts</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Returns the response from the value function&quot;&quot;&quot;</span>
         <span class="n">batch_size</span> <span class="o">=</span> <span class="n">observations</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
         <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_branch_1</span><span class="p">(</span><span class="n">observations</span><span class="p">)</span>
         <span class="n">x_a</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_scaling</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
         <span class="c1"># reshape to do context multiplication</span>
         <span class="n">x_a</span> <span class="o">=</span> <span class="n">x_a</span><span class="o">.</span><span class="n">view</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim2</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">))</span>
-        <span class="n">x_a_out</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">matmul</span><span class="p">(</span><span class="n">x_a</span><span class="p">,</span> <span class="n">contexts</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">x_a_out</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">matmul</span><span class="p">(</span><span class="n">x_a</span><span class="p">,</span> <span class="n">contexts</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
         <span class="n">values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_branch_2</span><span class="p">(</span><span class="n">x</span> <span class="o">+</span> <span class="n">x_a_out</span><span class="p">)</span>
         <span class="c1"># values = self.value_branch_2(x_a_out)</span>
 
-        <span class="k">return</span> <span class="n">values</span>
+        <span class="k">return</span> <span class="n">values</span></div>
+
 
 <div class="viewcode-block" id="MultModel.forward">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.forward">[docs]</a>
-    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">features</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
-        <span class="n">features</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">shared_net</span><span class="p">(</span><span class="n">features</span><span class="p">)</span>
-        <span class="n">observations</span> <span class="o">=</span> <span class="n">features</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">]</span>
-        <span class="n">contexts</span> <span class="o">=</span> <span class="n">features</span><span class="p">[:,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">:]</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">policies</span><span class="p">(</span><span class="n">observations</span><span class="p">,</span> <span class="n">contexts</span><span class="p">),</span> \
-            <span class="bp">self</span><span class="o">.</span><span class="n">values</span><span class="p">(</span><span class="n">observations</span><span class="p">,</span> <span class="n">contexts</span><span class="p">)</span></div>
+    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">features</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Returns the action logits and values&quot;&quot;&quot;</span>
+        <span class="c1"># features = self.shared_net(features)</span>
+        <span class="n">observations</span> <span class="o">=</span> <span class="n">features</span><span class="p">[:,</span> <span class="p">:</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">]</span>
+        <span class="n">contexts</span> <span class="o">=</span> <span class="n">features</span><span class="p">[:,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span> <span class="p">:]</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">policies</span><span class="p">(</span><span class="n">observations</span><span class="p">,</span> <span class="n">contexts</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">values</span><span class="p">(</span>
+            <span class="n">observations</span><span class="p">,</span> <span class="n">contexts</span>
+        <span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="MultModel.forward_actor">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.forward_actor">[docs]</a>
+    <span class="k">def</span> <span class="nf">forward_actor</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">features</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Returns the action logits and values&quot;&quot;&quot;</span>
+        <span class="c1"># features = self.shared_net(features)</span>
+        <span class="n">observations</span> <span class="o">=</span> <span class="n">features</span><span class="p">[:,</span> <span class="p">:</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">]</span>
+        <span class="n">contexts</span> <span class="o">=</span> <span class="n">features</span><span class="p">[:,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span> <span class="p">:]</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">policies</span><span class="p">(</span><span class="n">observations</span><span class="p">,</span> <span class="n">contexts</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="MultModel.forward_critic">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.forward_critic">[docs]</a>
+    <span class="k">def</span> <span class="nf">forward_critic</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">features</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Returns the action logits and values&quot;&quot;&quot;</span>
+        <span class="c1"># features = self.shared_net(features)</span>
+        <span class="n">observations</span> <span class="o">=</span> <span class="n">features</span><span class="p">[:,</span> <span class="p">:</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">]</span>
+        <span class="n">contexts</span> <span class="o">=</span> <span class="n">features</span><span class="p">[:,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span> <span class="p">:]</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">values</span><span class="p">(</span><span class="n">observations</span><span class="p">,</span> <span class="n">contexts</span><span class="p">)</span></div>
 </div>
 
 
@@ -355,6 +437,9 @@ <h1>Source code for pantheonrl.algos.adap.policies</h1><div class="highlight"><p
 <div class="viewcode-block" id="AdapPolicyMult">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult.html#pantheonrl.algos.adap.policies.AdapPolicyMult">[docs]</a>
 <span class="k">class</span> <span class="nc">AdapPolicyMult</span><span class="p">(</span><span class="n">AdapPolicy</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Multiplicative Policy for the ADAP Actor-critic policy</span>
+<span class="sd">    &quot;&quot;&quot;</span>
 
     <span class="k">def</span> <span class="nf">_build_mlp_extractor</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -369,7 +454,7 @@ <h1>Source code for pantheonrl.algos.adap.policies</h1><div class="highlight"><p
             <span class="n">net_arch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">net_arch</span><span class="p">,</span>
             <span class="n">activation_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">activation_fn</span><span class="p">,</span>
             <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
-            <span class="n">context_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span>
+            <span class="n">context_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">context_size</span><span class="p">,</span>
         <span class="p">)</span></div>
 
 </pre></div>
diff --git a/docs_build/build/html/_modules/pantheonrl/algos/adap/util.html b/docs_build/build/html/_modules/pantheonrl/algos/adap/util.html
index 1f0d9c5..b012a99 100644
--- a/docs_build/build/html/_modules/pantheonrl/algos/adap/util.html
+++ b/docs_build/build/html/_modules/pantheonrl/algos/adap/util.html
@@ -74,16 +74,22 @@
            <div itemprop="articleBody">
              
   <h1>Source code for pantheonrl.algos.adap.util</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">copy</span>
+<span></span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">Collection of helper functions for ADAP</span>
+<span class="sd">&quot;&quot;&quot;</span>
+
+<span class="kn">import</span> <span class="nn">copy</span>
 <span class="kn">from</span> <span class="nn">itertools</span> <span class="kn">import</span> <span class="n">combinations</span>
 
-<span class="kn">import</span> <span class="nn">torch</span> <span class="k">as</span> <span class="nn">th</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">TYPE_CHECKING</span>
+
+<span class="kn">import</span> <span class="nn">torch</span>
 <span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
 <span class="kn">from</span> <span class="nn">torch.distributions</span> <span class="kn">import</span> <span class="n">kl</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common</span> <span class="kn">import</span> <span class="n">distributions</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.buffers</span> <span class="kn">import</span> <span class="n">RolloutBufferSamples</span>
 
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">TYPE_CHECKING</span>
+
 <span class="k">if</span> <span class="n">TYPE_CHECKING</span><span class="p">:</span>
     <span class="kn">from</span> <span class="nn">.adap_learn</span> <span class="kn">import</span> <span class="n">ADAP</span>
     <span class="kn">from</span> <span class="nn">.policies</span> <span class="kn">import</span> <span class="n">AdapPolicy</span>
@@ -91,8 +97,10 @@ <h1>Source code for pantheonrl.algos.adap.util</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="kl_divergence">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.util.kl_divergence.html#pantheonrl.algos.adap.util.kl_divergence">[docs]</a>
-<span class="k">def</span> <span class="nf">kl_divergence</span><span class="p">(</span><span class="n">dist_true</span><span class="p">:</span> <span class="n">distributions</span><span class="o">.</span><span class="n">Distribution</span><span class="p">,</span>
-                  <span class="n">dist_pred</span><span class="p">:</span> <span class="n">distributions</span><span class="o">.</span><span class="n">Distribution</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="k">def</span> <span class="nf">kl_divergence</span><span class="p">(</span>
+    <span class="n">dist_true</span><span class="p">:</span> <span class="n">distributions</span><span class="o">.</span><span class="n">Distribution</span><span class="p">,</span>
+    <span class="n">dist_pred</span><span class="p">:</span> <span class="n">distributions</span><span class="o">.</span><span class="n">Distribution</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Wrapper for the PyTorch implementation of the full form KL Divergence</span>
 <span class="sd">    :param dist_true: the p distribution</span>
@@ -100,43 +108,47 @@ <h1>Source code for pantheonrl.algos.adap.util</h1><div class="highlight"><pre>
 <span class="sd">    :return: KL(dist_true||dist_pred)</span>
 <span class="sd">    &quot;&quot;&quot;</span>
     <span class="c1"># KL Divergence for different distribution types is out of scope</span>
-    <span class="k">assert</span> <span class="n">dist_true</span><span class="o">.</span><span class="vm">__class__</span> <span class="o">==</span> <span class="n">dist_pred</span><span class="o">.</span><span class="vm">__class__</span><span class="p">,</span> \
-        <span class="s2">&quot;Error: input distributions should be the same type&quot;</span>
+    <span class="k">assert</span> <span class="p">(</span>
+        <span class="n">dist_true</span><span class="o">.</span><span class="vm">__class__</span> <span class="o">==</span> <span class="n">dist_pred</span><span class="o">.</span><span class="vm">__class__</span>
+    <span class="p">),</span> <span class="s2">&quot;Error: input distributions should be the same type&quot;</span>
 
     <span class="c1"># MultiCategoricalDistribution is not a PyTorch Distribution subclass</span>
     <span class="c1"># so we need to implement it ourselves!</span>
     <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">dist_pred</span><span class="p">,</span> <span class="n">distributions</span><span class="o">.</span><span class="n">MultiCategoricalDistribution</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">th</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span>
-            <span class="p">[</span><span class="n">kl</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">)</span> <span class="k">for</span> <span class="n">p</span><span class="p">,</span> <span class="n">q</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span>
-                <span class="n">dist_true</span><span class="o">.</span><span class="n">distribution</span><span class="p">,</span> <span class="n">dist_pred</span><span class="o">.</span><span class="n">distribution</span><span class="p">)],</span>
+        <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span>
+            <span class="p">[</span>
+                <span class="n">kl</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">p</span><span class="p">,</span> <span class="n">q</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">dist_true</span><span class="o">.</span><span class="n">distribution</span><span class="p">,</span> <span class="n">dist_pred</span><span class="o">.</span><span class="n">distribution</span><span class="p">)</span>
+            <span class="p">],</span>
             <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
         <span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
 
     <span class="c1"># Use the PyTorch kl_divergence implementation</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="k">return</span> <span class="n">kl</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p">(</span><span class="n">dist_true</span><span class="o">.</span><span class="n">distribution</span><span class="p">,</span> <span class="n">dist_pred</span><span class="o">.</span><span class="n">distribution</span><span class="p">)</span></div>
+    <span class="k">return</span> <span class="n">kl</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p">(</span><span class="n">dist_true</span><span class="o">.</span><span class="n">distribution</span><span class="p">,</span> <span class="n">dist_pred</span><span class="o">.</span><span class="n">distribution</span><span class="p">)</span></div>
 
 
 
-<div class="viewcode-block" id="get_L2_sphere">
-<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.html#pantheonrl.algos.adap.util.get_L2_sphere">[docs]</a>
-<span class="k">def</span> <span class="nf">get_L2_sphere</span><span class="p">(</span><span class="n">ctx_size</span><span class="p">,</span> <span class="n">num</span><span class="p">,</span> <span class="n">torch</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-    <span class="k">if</span> <span class="n">torch</span><span class="p">:</span>
-        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">rand</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s1">&#39;cpu&#39;</span><span class="p">)</span> <span class="o">*</span> <span class="mi">2</span> <span class="o">-</span> <span class="mi">1</span>
-        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">ctxs</span> <span class="o">/</span> <span class="p">(</span><span class="n">th</span><span class="o">.</span><span class="n">sum</span><span class="p">((</span><span class="n">ctxs</span><span class="p">)</span><span class="o">**</span><span class="mi">2</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span><span class="o">**</span><span class="p">(</span><span class="mi">1</span><span class="o">/</span><span class="mi">2</span><span class="p">)</span>
-        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">ctxs</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s1">&#39;cpu&#39;</span><span class="p">)</span>
+<div class="viewcode-block" id="get_l2_sphere">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.html#pantheonrl.algos.adap.util.get_l2_sphere">[docs]</a>
+<span class="k">def</span> <span class="nf">get_l2_sphere</span><span class="p">(</span><span class="n">ctx_size</span><span class="p">,</span> <span class="n">num</span><span class="p">,</span> <span class="n">use_torch</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Samples from l2 sphere&quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">use_torch</span><span class="p">:</span>
+        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">rand</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="s2">&quot;cpu&quot;</span><span class="p">)</span> <span class="o">*</span> <span class="mi">2</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">ctxs</span> <span class="o">/</span> <span class="p">(((</span><span class="n">ctxs</span><span class="p">)</span> <span class="o">**</span> <span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span> <span class="o">**</span> <span class="p">(</span><span class="mi">1</span> <span class="o">/</span> <span class="mi">2</span><span class="p">)</span>
+        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">ctxs</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
     <span class="k">else</span><span class="p">:</span>
         <span class="n">ctxs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">rand</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">)</span> <span class="o">*</span> <span class="mi">2</span> <span class="o">-</span> <span class="mi">1</span>
-        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">ctxs</span> <span class="o">/</span> <span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">sum</span><span class="p">((</span><span class="n">ctxs</span><span class="p">)</span><span class="o">**</span><span class="mi">2</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span><span class="o">**</span><span class="p">(</span><span class="mi">1</span><span class="o">/</span><span class="mi">2</span><span class="p">)</span>
+        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">ctxs</span> <span class="o">/</span> <span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">sum</span><span class="p">((</span><span class="n">ctxs</span><span class="p">)</span> <span class="o">**</span> <span class="mi">2</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span> <span class="o">**</span> <span class="p">(</span><span class="mi">1</span> <span class="o">/</span> <span class="mi">2</span><span class="p">)</span>
     <span class="k">return</span> <span class="n">ctxs</span></div>
 
 
 
 <div class="viewcode-block" id="get_unit_square">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.util.get_unit_square.html#pantheonrl.algos.adap.util.get_unit_square">[docs]</a>
-<span class="k">def</span> <span class="nf">get_unit_square</span><span class="p">(</span><span class="n">ctx_size</span><span class="p">,</span> <span class="n">num</span><span class="p">,</span> <span class="n">torch</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-    <span class="k">if</span> <span class="n">torch</span><span class="p">:</span>
-        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">rand</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">)</span> <span class="o">*</span> <span class="mi">2</span> <span class="o">-</span> <span class="mi">1</span>
+<span class="k">def</span> <span class="nf">get_unit_square</span><span class="p">(</span><span class="n">ctx_size</span><span class="p">,</span> <span class="n">num</span><span class="p">,</span> <span class="n">use_torch</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Samples from unit square centered at 0&quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">use_torch</span><span class="p">:</span>
+        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">rand</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">)</span> <span class="o">*</span> <span class="mi">2</span> <span class="o">-</span> <span class="mi">1</span>
     <span class="k">else</span><span class="p">:</span>
         <span class="n">ctxs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">rand</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">)</span> <span class="o">*</span> <span class="mi">2</span> <span class="o">-</span> <span class="mi">1</span>
     <span class="k">return</span> <span class="n">ctxs</span></div>
@@ -145,9 +157,10 @@ <h1>Source code for pantheonrl.algos.adap.util</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="get_positive_square">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.util.get_positive_square.html#pantheonrl.algos.adap.util.get_positive_square">[docs]</a>
-<span class="k">def</span> <span class="nf">get_positive_square</span><span class="p">(</span><span class="n">ctx_size</span><span class="p">,</span> <span class="n">num</span><span class="p">,</span> <span class="n">torch</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-    <span class="k">if</span> <span class="n">torch</span><span class="p">:</span>
-        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">rand</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">)</span>
+<span class="k">def</span> <span class="nf">get_positive_square</span><span class="p">(</span><span class="n">ctx_size</span><span class="p">,</span> <span class="n">num</span><span class="p">,</span> <span class="n">use_torch</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Samples from the square with axes between 0 and 1&quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">use_torch</span><span class="p">:</span>
+        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">rand</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">)</span>
     <span class="k">else</span><span class="p">:</span>
         <span class="n">ctxs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">rand</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">)</span>
     <span class="k">return</span> <span class="n">ctxs</span></div>
@@ -156,10 +169,11 @@ <h1>Source code for pantheonrl.algos.adap.util</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="get_categorical">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.util.get_categorical.html#pantheonrl.algos.adap.util.get_categorical">[docs]</a>
-<span class="k">def</span> <span class="nf">get_categorical</span><span class="p">(</span><span class="n">ctx_size</span><span class="p">,</span> <span class="n">num</span><span class="p">,</span> <span class="n">torch</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-    <span class="k">if</span> <span class="n">torch</span><span class="p">:</span>
-        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">)</span>
-        <span class="n">ctxs</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">num</span><span class="p">),</span> <span class="n">th</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="p">(</span><span class="n">num</span><span class="p">,))]</span> <span class="o">=</span> <span class="mi">1</span>
+<span class="k">def</span> <span class="nf">get_categorical</span><span class="p">(</span><span class="n">ctx_size</span><span class="p">,</span> <span class="n">num</span><span class="p">,</span> <span class="n">use_torch</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Samples from categorical distribution&quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">use_torch</span><span class="p">:</span>
+        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">)</span>
+        <span class="n">ctxs</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">num</span><span class="p">),</span> <span class="n">torch</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="p">(</span><span class="n">num</span><span class="p">,))]</span> <span class="o">=</span> <span class="mi">1</span>
     <span class="k">else</span><span class="p">:</span>
         <span class="n">ctxs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="n">num</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">))</span>
         <span class="n">ctxs</span><span class="p">[</span><span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">num</span><span class="p">),</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="p">(</span><span class="n">num</span><span class="p">,))]</span> <span class="o">=</span> <span class="mi">1</span>
@@ -169,61 +183,67 @@ <h1>Source code for pantheonrl.algos.adap.util</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="get_natural_number">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.util.get_natural_number.html#pantheonrl.algos.adap.util.get_natural_number">[docs]</a>
-<span class="k">def</span> <span class="nf">get_natural_number</span><span class="p">(</span><span class="n">ctx_size</span><span class="p">,</span> <span class="n">num</span><span class="p">,</span> <span class="n">torch</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&#39;&#39;&#39;</span>
+<span class="k">def</span> <span class="nf">get_natural_number</span><span class="p">(</span><span class="n">ctx_size</span><span class="p">,</span> <span class="n">num</span><span class="p">,</span> <span class="n">use_torch</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Returns context vector of shape (num,1) with numbers in range [0, ctx_size]</span>
-<span class="sd">    &#39;&#39;&#39;</span>
-    <span class="k">if</span> <span class="n">torch</span><span class="p">:</span>
-        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">use_torch</span><span class="p">:</span>
+        <span class="n">ctxs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span>
     <span class="k">else</span><span class="p">:</span>
         <span class="n">ctxs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">ctx_size</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span>
     <span class="k">return</span> <span class="n">ctxs</span></div>
 
 
 
-<span class="n">SAMPLERS</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;l2&quot;</span><span class="p">:</span> <span class="n">get_L2_sphere</span><span class="p">,</span>
-            <span class="s2">&quot;unit_square&quot;</span><span class="p">:</span> <span class="n">get_unit_square</span><span class="p">,</span>
-            <span class="s2">&quot;positive_square&quot;</span><span class="p">:</span> <span class="n">get_positive_square</span><span class="p">,</span>
-            <span class="s2">&quot;categorical&quot;</span><span class="p">:</span> <span class="n">get_categorical</span><span class="p">,</span>
-            <span class="s2">&quot;natural_numbers&quot;</span><span class="p">:</span> <span class="n">get_natural_number</span><span class="p">}</span>
+<span class="n">SAMPLERS</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="s2">&quot;l2&quot;</span><span class="p">:</span> <span class="n">get_l2_sphere</span><span class="p">,</span>
+    <span class="s2">&quot;unit_square&quot;</span><span class="p">:</span> <span class="n">get_unit_square</span><span class="p">,</span>
+    <span class="s2">&quot;positive_square&quot;</span><span class="p">:</span> <span class="n">get_positive_square</span><span class="p">,</span>
+    <span class="s2">&quot;categorical&quot;</span><span class="p">:</span> <span class="n">get_categorical</span><span class="p">,</span>
+    <span class="s2">&quot;natural_numbers&quot;</span><span class="p">:</span> <span class="n">get_natural_number</span><span class="p">,</span>
+<span class="p">}</span>
 
 
 <div class="viewcode-block" id="get_context_kl_loss">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.adap.util.get_context_kl_loss.html#pantheonrl.algos.adap.util.get_context_kl_loss">[docs]</a>
-<span class="k">def</span> <span class="nf">get_context_kl_loss</span><span class="p">(</span><span class="n">policy</span><span class="p">:</span> <span class="s1">&#39;ADAP&#39;</span><span class="p">,</span> <span class="n">model</span><span class="p">:</span> <span class="s1">&#39;AdapPolicy&#39;</span><span class="p">,</span>
-                        <span class="n">train_batch</span><span class="p">:</span> <span class="n">RolloutBufferSamples</span><span class="p">):</span>
+<span class="k">def</span> <span class="nf">get_context_kl_loss</span><span class="p">(</span>
+    <span class="n">policy</span><span class="p">:</span> <span class="s2">&quot;ADAP&quot;</span><span class="p">,</span> <span class="n">model</span><span class="p">:</span> <span class="s2">&quot;AdapPolicy&quot;</span><span class="p">,</span> <span class="n">train_batch</span><span class="p">:</span> <span class="n">RolloutBufferSamples</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Gets the KL loss for ADAP&quot;&quot;&quot;</span>
 
-    <span class="n">original_obs</span> <span class="o">=</span> <span class="n">train_batch</span><span class="o">.</span><span class="n">observations</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="n">policy</span><span class="o">.</span><span class="n">context_size</span><span class="p">]</span>
+    <span class="n">original_obs</span> <span class="o">=</span> <span class="n">train_batch</span><span class="o">.</span><span class="n">observations</span><span class="p">[:,</span> <span class="p">:</span> <span class="o">-</span><span class="n">policy</span><span class="o">.</span><span class="n">context_size</span><span class="p">]</span>
 
     <span class="n">context_size</span> <span class="o">=</span> <span class="n">policy</span><span class="o">.</span><span class="n">context_size</span>
     <span class="n">num_context_samples</span> <span class="o">=</span> <span class="n">policy</span><span class="o">.</span><span class="n">num_context_samples</span>
     <span class="n">num_state_samples</span> <span class="o">=</span> <span class="n">policy</span><span class="o">.</span><span class="n">num_state_samples</span>
 
-    <span class="n">indices</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">randperm</span><span class="p">(</span><span class="n">original_obs</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">])[:</span><span class="n">num_state_samples</span><span class="p">]</span>
+    <span class="n">indices</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randperm</span><span class="p">(</span><span class="n">original_obs</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">])[:</span><span class="n">num_state_samples</span><span class="p">]</span>
     <span class="n">sampled_states</span> <span class="o">=</span> <span class="n">original_obs</span><span class="p">[</span><span class="n">indices</span><span class="p">]</span>
     <span class="n">num_state_samples</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">num_state_samples</span><span class="p">,</span> <span class="n">sampled_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
 
     <span class="n">all_contexts</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
     <span class="n">all_action_dists</span> <span class="o">=</span> <span class="p">[]</span>
     <span class="n">old_context</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">get_context</span><span class="p">()</span>
-    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">num_context_samples</span><span class="p">):</span>  <span class="c1"># 10 sampled contexts</span>
+    <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">num_context_samples</span><span class="p">):</span>  <span class="c1"># 10 sampled contexts</span>
         <span class="n">sampled_context</span> <span class="o">=</span> <span class="n">SAMPLERS</span><span class="p">[</span><span class="n">policy</span><span class="o">.</span><span class="n">context_sampler</span><span class="p">](</span>
-            <span class="n">ctx_size</span><span class="o">=</span><span class="n">context_size</span><span class="p">,</span> <span class="n">num</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">torch</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">ctx_size</span><span class="o">=</span><span class="n">context_size</span><span class="p">,</span> <span class="n">num</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">use_torch</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
 
         <span class="k">if</span> <span class="n">sampled_context</span> <span class="ow">in</span> <span class="n">all_contexts</span><span class="p">:</span>
             <span class="k">continue</span>
 
         <span class="n">all_contexts</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">sampled_context</span><span class="p">)</span>
         <span class="n">model</span><span class="o">.</span><span class="n">set_context</span><span class="p">(</span><span class="n">sampled_context</span><span class="p">)</span>
-        <span class="n">latent_pi</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">latent_sde</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">_get_latent</span><span class="p">(</span><span class="n">sampled_states</span><span class="p">)</span>
-        <span class="n">context_action_dist</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">_get_action_dist_from_latent</span><span class="p">(</span>
-            <span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_sde</span><span class="p">)</span>
+        <span class="n">latent_pi</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">_get_latent</span><span class="p">(</span><span class="n">sampled_states</span><span class="p">)</span>
+        <span class="n">context_action_dist</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">_get_action_dist_from_latent</span><span class="p">(</span><span class="n">latent_pi</span><span class="p">)</span>
         <span class="n">all_action_dists</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">copy</span><span class="o">.</span><span class="n">copy</span><span class="p">(</span><span class="n">context_action_dist</span><span class="p">))</span>
 
     <span class="n">model</span><span class="o">.</span><span class="n">set_context</span><span class="p">(</span><span class="n">old_context</span><span class="p">)</span>
-    <span class="n">all_CLs</span> <span class="o">=</span> <span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">th</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="o">-</span><span class="n">kl_divergence</span><span class="p">(</span><span class="n">a</span><span class="p">,</span> <span class="n">b</span><span class="p">)))</span>
-               <span class="k">for</span> <span class="n">a</span><span class="p">,</span> <span class="n">b</span> <span class="ow">in</span> <span class="n">combinations</span><span class="p">(</span><span class="n">all_action_dists</span><span class="p">,</span> <span class="mi">2</span><span class="p">)]</span>
-    <span class="n">rawans</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="n">all_CLs</span><span class="p">)</span><span class="o">/</span><span class="nb">len</span><span class="p">(</span><span class="n">all_CLs</span><span class="p">)</span>
+    <span class="n">all_cls</span> <span class="o">=</span> <span class="p">[</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="o">-</span><span class="n">kl_divergence</span><span class="p">(</span><span class="n">a</span><span class="p">,</span> <span class="n">b</span><span class="p">)))</span>
+        <span class="k">for</span> <span class="n">a</span><span class="p">,</span> <span class="n">b</span> <span class="ow">in</span> <span class="n">combinations</span><span class="p">(</span><span class="n">all_action_dists</span><span class="p">,</span> <span class="mi">2</span><span class="p">)</span>
+    <span class="p">]</span>
+    <span class="n">rawans</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="n">all_cls</span><span class="p">)</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">all_cls</span><span class="p">)</span>
     <span class="k">return</span> <span class="n">rawans</span></div>
 
 </pre></div>
diff --git a/docs_build/build/html/_modules/pantheonrl/algos/bc.html b/docs_build/build/html/_modules/pantheonrl/algos/bc.html
index 0b4eae3..642589a 100644
--- a/docs_build/build/html/_modules/pantheonrl/algos/bc.html
+++ b/docs_build/build/html/_modules/pantheonrl/algos/bc.html
@@ -74,29 +74,41 @@
            <div itemprop="articleBody">
              
   <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
-<span></span><span class="sd">&quot;&quot;&quot;Behavioural Cloning (BC).</span>
+<span></span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">Behavioural Cloning (BC).</span>
 <span class="sd">Trains policy by applying supervised learning to a fixed dataset of</span>
 <span class="sd">(observation, action) pairs generated by some expert demonstrator.</span>
 
-<span class="sd">https://github.com/HumanCompatibleAI/imitation/blob/</span>
-<span class="sd">master/src/imitation/algorithms/bc.py</span>
+<span class="sd">https://github.com/HumanCompatibleAI/imitation/blob/master/src/imitation/algorithms/bc.py</span>
 <span class="sd">&quot;&quot;&quot;</span>
 
 <span class="kn">import</span> <span class="nn">contextlib</span>
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="p">(</span><span class="n">Any</span><span class="p">,</span> <span class="n">Callable</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Iterable</span><span class="p">,</span> <span class="n">Mapping</span><span class="p">,</span>
-                    <span class="n">Optional</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Type</span><span class="p">,</span> <span class="n">Union</span><span class="p">)</span>
+<span class="kn">from</span> <span class="nn">dataclasses</span> <span class="kn">import</span> <span class="n">dataclass</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">Any</span><span class="p">,</span>
+    <span class="n">Callable</span><span class="p">,</span>
+    <span class="n">Dict</span><span class="p">,</span>
+    <span class="n">Iterable</span><span class="p">,</span>
+    <span class="n">Mapping</span><span class="p">,</span>
+    <span class="n">Optional</span><span class="p">,</span>
+    <span class="n">Tuple</span><span class="p">,</span>
+    <span class="n">Type</span><span class="p">,</span>
+    <span class="n">Union</span><span class="p">,</span>
+<span class="p">)</span>
 
 <span class="kn">import</span> <span class="nn">gymnasium</span> <span class="k">as</span> <span class="nn">gym</span>
 <span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-<span class="kn">import</span> <span class="nn">torch</span> <span class="k">as</span> <span class="nn">th</span>
+<span class="kn">import</span> <span class="nn">torch</span>
 <span class="kn">import</span> <span class="nn">torch.utils.data</span> <span class="k">as</span> <span class="nn">th_data</span>
 <span class="kn">from</span> <span class="nn">torch.optim.optimizer</span> <span class="kn">import</span> <span class="n">Optimizer</span>
 <span class="kn">from</span> <span class="nn">torch.optim.adam</span> <span class="kn">import</span> <span class="n">Adam</span>
 <span class="kn">import</span> <span class="nn">tqdm.autonotebook</span> <span class="k">as</span> <span class="nn">tqdm</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common</span> <span class="kn">import</span> <span class="n">policies</span><span class="p">,</span> <span class="n">utils</span>
 
-<span class="kn">from</span> <span class="nn">pantheonrl.common.trajsaver</span> <span class="kn">import</span> <span class="p">(</span><span class="n">TransitionsMinimal</span><span class="p">,</span>
-                                              <span class="n">transitions_collate_fn</span><span class="p">)</span>
+<span class="kn">from</span> <span class="nn">pantheonrl.common.trajsaver</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">TransitionsMinimal</span><span class="p">,</span>
+    <span class="n">transitions_collate_fn</span><span class="p">,</span>
+<span class="p">)</span>
 <span class="kn">from</span> <span class="nn">pantheonrl.common.util</span> <span class="kn">import</span> <span class="n">FeedForward32Policy</span>
 
 <span class="n">log</span> <span class="o">=</span> <span class="n">utils</span><span class="o">.</span><span class="n">configure_logger</span><span class="p">(</span><span class="n">verbose</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>  <span class="c1"># change to 1 for debugging</span>
@@ -104,9 +116,24 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="BCShell">
 <a class="viewcode-back" href="../../../_autosummary/pantheonrl.algos.bc.BCShell.html#pantheonrl.algos.bc.BCShell">[docs]</a>
+<span class="nd">@dataclass</span>
 <span class="k">class</span> <span class="nc">BCShell</span><span class="p">:</span>
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">policy</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">policy</span> <span class="o">=</span> <span class="n">policy</span></div>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot; Shell class for BC policy &quot;&quot;&quot;</span>
+    <span class="n">policy</span><span class="p">:</span> <span class="n">FeedForward32Policy</span>
+
+<div class="viewcode-block" id="BCShell.get_policy">
+<a class="viewcode-back" href="../../../_autosummary/pantheonrl.algos.bc.BCShell.html#pantheonrl.algos.bc.BCShell.get_policy">[docs]</a>
+    <span class="k">def</span> <span class="nf">get_policy</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; Get the current policy &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span></div>
+
+
+<div class="viewcode-block" id="BCShell.set_policy">
+<a class="viewcode-back" href="../../../_autosummary/pantheonrl.algos.bc.BCShell.html#pantheonrl.algos.bc.BCShell.set_policy">[docs]</a>
+    <span class="k">def</span> <span class="nf">set_policy</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">new_policy</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; Set the BC policy &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">policy</span> <span class="o">=</span> <span class="n">new_policy</span></div>
+</div>
 
 
 
@@ -114,7 +141,7 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
 <a class="viewcode-back" href="../../../_autosummary/pantheonrl.algos.bc.reconstruct_policy.html#pantheonrl.algos.bc.reconstruct_policy">[docs]</a>
 <span class="k">def</span> <span class="nf">reconstruct_policy</span><span class="p">(</span>
     <span class="n">policy_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-    <span class="n">device</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">device</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;auto&quot;</span><span class="p">,</span>
+    <span class="n">device</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;auto&quot;</span><span class="p">,</span>
 <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">policies</span><span class="o">.</span><span class="n">BasePolicy</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Reconstruct a saved policy.</span>
 <span class="sd">    Args:</span>
@@ -123,7 +150,7 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
 <span class="sd">    Returns:</span>
 <span class="sd">        policy: policy with reloaded weights.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">policy</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">policy_path</span><span class="p">,</span> <span class="n">map_location</span><span class="o">=</span><span class="n">utils</span><span class="o">.</span><span class="n">get_device</span><span class="p">(</span><span class="n">device</span><span class="p">))</span>
+    <span class="n">policy</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">policy_path</span><span class="p">,</span> <span class="n">map_location</span><span class="o">=</span><span class="n">utils</span><span class="o">.</span><span class="n">get_device</span><span class="p">(</span><span class="n">device</span><span class="p">))</span>
     <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">policy</span><span class="p">,</span> <span class="n">policies</span><span class="o">.</span><span class="n">BasePolicy</span><span class="p">)</span>
     <span class="k">return</span> <span class="n">policy</span></div>
 
@@ -148,6 +175,13 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
 <span class="sd">        Returns the constant learning rate.</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">lr</span></div>
+
+
+<div class="viewcode-block" id="ConstantLRSchedule.set_lr">
+<a class="viewcode-back" href="../../../_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.html#pantheonrl.algos.bc.ConstantLRSchedule.set_lr">[docs]</a>
+    <span class="k">def</span> <span class="nf">set_lr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">new_lr</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; Sets a new learning rate &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lr</span> <span class="o">=</span> <span class="n">new_lr</span></div>
 </div>
 
 
@@ -155,6 +189,23 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
 <div class="viewcode-block" id="EpochOrBatchIteratorWithProgress">
 <a class="viewcode-back" href="../../../_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.html#pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress">[docs]</a>
 <span class="k">class</span> <span class="nc">EpochOrBatchIteratorWithProgress</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Wraps DataLoader so that all BC batches can be processed in a one</span>
+<span class="sd">    for-loop. Also uses `tqdm` to show progress in stdout.</span>
+<span class="sd">    Args:</span>
+<span class="sd">        data_loader: An iterable over data dicts, as used in `BC`.</span>
+<span class="sd">        n_epochs: The number of epochs to iterate through in one call to</span>
+<span class="sd">            __iter__. Exactly one of `n_epochs` and `n_batches` should be</span>
+<span class="sd">            provided.</span>
+<span class="sd">        n_batches: The number of batches to iterate through in one call to</span>
+<span class="sd">            __iter__. Exactly one of `n_epochs` and `n_batches` should be</span>
+<span class="sd">            provided.</span>
+<span class="sd">        on_epoch_end: A callback function without parameters to be called</span>
+<span class="sd">            at the end of every epoch.</span>
+<span class="sd">        on_batch_end: A callback function without parameters to be called</span>
+<span class="sd">            at the end of every batch.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">data_loader</span><span class="p">:</span> <span class="n">Iterable</span><span class="p">[</span><span class="nb">dict</span><span class="p">],</span>
@@ -163,22 +214,6 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
         <span class="n">on_epoch_end</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Callable</span><span class="p">[[],</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">on_batch_end</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Callable</span><span class="p">[[],</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
     <span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Wraps DataLoader so that all BC batches can be processed in a one</span>
-<span class="sd">        for-loop. Also uses `tqdm` to show progress in stdout.</span>
-<span class="sd">        Args:</span>
-<span class="sd">            data_loader: An iterable over data dicts, as used in `BC`.</span>
-<span class="sd">            n_epochs: The number of epochs to iterate through in one call to</span>
-<span class="sd">                __iter__. Exactly one of `n_epochs` and `n_batches` should be</span>
-<span class="sd">                provided.</span>
-<span class="sd">            n_batches: The number of batches to iterate through in one call to</span>
-<span class="sd">                __iter__. Exactly one of `n_epochs` and `n_batches` should be</span>
-<span class="sd">                provided.</span>
-<span class="sd">            on_epoch_end: A callback function without parameters to be called</span>
-<span class="sd">                at the end of every epoch.</span>
-<span class="sd">            on_batch_end: A callback function without parameters to be called</span>
-<span class="sd">                at the end of every batch.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">if</span> <span class="n">n_epochs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">n_batches</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">use_epochs</span> <span class="o">=</span> <span class="kc">True</span>
         <span class="k">elif</span> <span class="n">n_epochs</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">n_batches</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
@@ -225,11 +260,11 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
                     <span class="n">batch_size</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;obs&quot;</span><span class="p">])</span>
                     <span class="k">assert</span> <span class="n">batch_size</span> <span class="o">&gt;</span> <span class="mi">0</span>
                     <span class="n">samples_so_far</span> <span class="o">+=</span> <span class="n">batch_size</span>
-                    <span class="n">stats</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
-                        <span class="n">epoch_num</span><span class="o">=</span><span class="n">epoch_num</span><span class="p">,</span>
-                        <span class="n">batch_num</span><span class="o">=</span><span class="n">batch_num</span><span class="p">,</span>
-                        <span class="n">samples_so_far</span><span class="o">=</span><span class="n">samples_so_far</span><span class="p">,</span>
-                    <span class="p">)</span>
+                    <span class="n">stats</span> <span class="o">=</span> <span class="p">{</span>
+                        <span class="s2">&quot;epoch_num&quot;</span><span class="p">:</span> <span class="n">epoch_num</span><span class="p">,</span>
+                        <span class="s2">&quot;batch_num&quot;</span><span class="p">:</span> <span class="n">batch_num</span><span class="p">,</span>
+                        <span class="s2">&quot;samples_so_far&quot;</span><span class="p">:</span> <span class="n">samples_so_far</span><span class="p">,</span>
+                    <span class="p">}</span>
                     <span class="k">yield</span> <span class="n">batch</span><span class="p">,</span> <span class="n">stats</span>
                     <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">on_batch_end</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
                         <span class="bp">self</span><span class="o">.</span><span class="n">on_batch_end</span><span class="p">()</span>
@@ -256,13 +291,41 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
 
                     <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_epochs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
                     <span class="k">if</span> <span class="n">epoch_num</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_epochs</span><span class="p">:</span>
-                        <span class="k">return</span></div>
+                        <span class="k">return</span>
+
+<div class="viewcode-block" id="EpochOrBatchIteratorWithProgress.set_data_loader">
+<a class="viewcode-back" href="../../../_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.html#pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.set_data_loader">[docs]</a>
+    <span class="k">def</span> <span class="nf">set_data_loader</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">new_data_loader</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; Set the data loader to new value &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">data_loader</span> <span class="o">=</span> <span class="n">new_data_loader</span></div>
+</div>
 
 
 
 <div class="viewcode-block" id="BC">
 <a class="viewcode-back" href="../../../_autosummary/pantheonrl.algos.bc.BC.html#pantheonrl.algos.bc.BC">[docs]</a>
 <span class="k">class</span> <span class="nc">BC</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Behavioral cloning (BC).</span>
+
+<span class="sd">    Recovers a policy via supervised learning on observation-action Tensor</span>
+<span class="sd">    pairs, sampled from a Torch DataLoader or any Iterator that ducktypes</span>
+<span class="sd">    `torch.utils.data.DataLoader`.</span>
+<span class="sd">    Args:</span>
+<span class="sd">        observation_space: the observation space of the environment.</span>
+<span class="sd">        action_space: the action space of the environment.</span>
+<span class="sd">        policy_class: used to instantiate imitation policy.</span>
+<span class="sd">        policy_kwargs: keyword arguments passed to policy&#39;s constructor.</span>
+<span class="sd">        expert_data: If not None, then immediately call</span>
+<span class="sd">              `self.set_expert_data_loader(expert_data)` during</span>
+<span class="sd">              initialization.</span>
+<span class="sd">        optimizer_cls: optimiser to use for supervised training.</span>
+<span class="sd">        optimizer_kwargs: keyword arguments, excluding learning rate and</span>
+<span class="sd">              weight decay, for optimiser construction.</span>
+<span class="sd">        ent_weight: scaling applied to the policy&#39;s entropy regularization.</span>
+<span class="sd">        l2_weight: scaling applied to the policy&#39;s L2 regularization.</span>
+<span class="sd">        device: name/identity of device to place policy on.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
 
     <span class="n">DEFAULT_BATCH_SIZE</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -282,41 +345,23 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
         <span class="n">optimizer_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">ent_weight</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1e-3</span><span class="p">,</span>
         <span class="n">l2_weight</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
-        <span class="n">device</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">device</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;auto&quot;</span><span class="p">,</span>
+        <span class="n">device</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;auto&quot;</span><span class="p">,</span>
     <span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Behavioral cloning (BC).</span>
-<span class="sd">        Recovers a policy via supervised learning on observation-action Tensor</span>
-<span class="sd">        pairs, sampled from a Torch DataLoader or any Iterator that ducktypes</span>
-<span class="sd">        `torch.utils.data.DataLoader`.</span>
-<span class="sd">        Args:</span>
-<span class="sd">            observation_space: the observation space of the environment.</span>
-<span class="sd">            action_space: the action space of the environment.</span>
-<span class="sd">            policy_class: used to instantiate imitation policy.</span>
-<span class="sd">            policy_kwargs: keyword arguments passed to policy&#39;s constructor.</span>
-<span class="sd">            expert_data: If not None, then immediately call</span>
-<span class="sd">                  `self.set_expert_data_loader(expert_data)` during</span>
-<span class="sd">                  initialization.</span>
-<span class="sd">            optimizer_cls: optimiser to use for supervised training.</span>
-<span class="sd">            optimizer_kwargs: keyword arguments, excluding learning rate and</span>
-<span class="sd">                  weight decay, for optimiser construction.</span>
-<span class="sd">            ent_weight: scaling applied to the policy&#39;s entropy regularization.</span>
-<span class="sd">            l2_weight: scaling applied to the policy&#39;s L2 regularization.</span>
-<span class="sd">            device: name/identity of device to place policy on.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">if</span> <span class="n">optimizer_kwargs</span><span class="p">:</span>
             <span class="k">if</span> <span class="s2">&quot;weight_decay&quot;</span> <span class="ow">in</span> <span class="n">optimizer_kwargs</span><span class="p">:</span>
                 <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
-                    <span class="s2">&quot;Use the parameter l2_weight instead of weight_decay.&quot;</span><span class="p">)</span>
+                    <span class="s2">&quot;Use the parameter l2_weight instead of weight_decay.&quot;</span>
+                <span class="p">)</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span> <span class="o">=</span> <span class="n">action_space</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">observation_space</span> <span class="o">=</span> <span class="n">observation_space</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">policy_class</span> <span class="o">=</span> <span class="n">policy_class</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">device</span> <span class="o">=</span> <span class="n">utils</span><span class="o">.</span><span class="n">get_device</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">policy_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
-            <span class="n">observation_space</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">observation_space</span><span class="p">,</span>
-            <span class="n">action_space</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span>
-            <span class="n">lr_schedule</span><span class="o">=</span><span class="n">ConstantLRSchedule</span><span class="p">(),</span>
-        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">policy_kwargs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;observation_space&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">observation_space</span><span class="p">,</span>
+            <span class="s2">&quot;action_space&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span>
+            <span class="s2">&quot;lr_schedule&quot;</span><span class="p">:</span> <span class="n">ConstantLRSchedule</span><span class="p">(),</span>
+        <span class="p">}</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">policy_kwargs</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">policy_kwargs</span> <span class="ow">or</span> <span class="p">{})</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">utils</span><span class="o">.</span><span class="n">get_device</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
 
@@ -326,7 +371,8 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
         <span class="n">optimizer_kwargs</span> <span class="o">=</span> <span class="n">optimizer_kwargs</span> <span class="ow">or</span> <span class="p">{}</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="n">optimizer_cls</span><span class="p">(</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="o">**</span><span class="n">optimizer_kwargs</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="o">**</span><span class="n">optimizer_kwargs</span>
+        <span class="p">)</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">expert_data_loader</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Iterable</span><span class="p">[</span><span class="n">Mapping</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">ent_weight</span> <span class="o">=</span> <span class="n">ent_weight</span>
@@ -365,9 +411,9 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
 
     <span class="k">def</span> <span class="nf">_calculate_loss</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
-        <span class="n">obs</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">],</span>
-        <span class="n">acts</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">],</span>
-    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]:</span>
+        <span class="n">obs</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">],</span>
+        <span class="n">acts</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Calculate the supervised learning loss used to train the behavioral</span>
 <span class="sd">        clone.</span>
@@ -381,15 +427,15 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
 <span class="sd">                optimize.</span>
 <span class="sd">            stats_dict: Statistics about the learning process to be logged.</span>
 <span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">obs</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">as_tensor</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
-        <span class="n">acts</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">as_tensor</span><span class="p">(</span><span class="n">acts</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+        <span class="n">obs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">as_tensor</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+        <span class="n">acts</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">as_tensor</span><span class="p">(</span><span class="n">acts</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
 
         <span class="n">_</span><span class="p">,</span> <span class="n">log_prob</span><span class="p">,</span> <span class="n">entropy</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">evaluate_actions</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">acts</span><span class="p">)</span>
-        <span class="n">prob_true_act</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">log_prob</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+        <span class="n">prob_true_act</span> <span class="o">=</span> <span class="n">log_prob</span><span class="o">.</span><span class="n">exp</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
         <span class="n">log_prob</span> <span class="o">=</span> <span class="n">log_prob</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
         <span class="n">entropy</span> <span class="o">=</span> <span class="n">entropy</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
 
-        <span class="n">l2_norms</span> <span class="o">=</span> <span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">th</span><span class="o">.</span><span class="n">square</span><span class="p">(</span><span class="n">w</span><span class="p">))</span> <span class="k">for</span> <span class="n">w</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">parameters</span><span class="p">()]</span>
+        <span class="n">l2_norms</span> <span class="o">=</span> <span class="p">[</span><span class="n">w</span><span class="o">.</span><span class="n">square</span><span class="p">()</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span> <span class="k">for</span> <span class="n">w</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">parameters</span><span class="p">()]</span>
         <span class="c1"># divide by 2 to cancel with gradient of square</span>
         <span class="n">l2_norm</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="n">l2_norms</span><span class="p">)</span> <span class="o">/</span> <span class="mi">2</span>
 
@@ -398,15 +444,15 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
         <span class="n">l2_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">l2_weight</span> <span class="o">*</span> <span class="n">l2_norm</span>
         <span class="n">loss</span> <span class="o">=</span> <span class="n">neglogp</span> <span class="o">+</span> <span class="n">ent_loss</span> <span class="o">+</span> <span class="n">l2_loss</span>
 
-        <span class="n">stats_dict</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
-            <span class="n">neglogp</span><span class="o">=</span><span class="n">neglogp</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
-            <span class="n">loss</span><span class="o">=</span><span class="n">loss</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
-            <span class="n">entropy</span><span class="o">=</span><span class="n">entropy</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
-            <span class="n">ent_loss</span><span class="o">=</span><span class="n">ent_loss</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
-            <span class="n">prob_true_act</span><span class="o">=</span><span class="n">prob_true_act</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
-            <span class="n">l2_norm</span><span class="o">=</span><span class="n">l2_norm</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
-            <span class="n">l2_loss</span><span class="o">=</span><span class="n">l2_loss</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
-        <span class="p">)</span>
+        <span class="n">stats_dict</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;neglogp&quot;</span><span class="p">:</span> <span class="n">neglogp</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+            <span class="s2">&quot;loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+            <span class="s2">&quot;entropy&quot;</span><span class="p">:</span> <span class="n">entropy</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+            <span class="s2">&quot;ent_loss&quot;</span><span class="p">:</span> <span class="n">ent_loss</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+            <span class="s2">&quot;prob_true_act&quot;</span><span class="p">:</span> <span class="n">prob_true_act</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+            <span class="s2">&quot;l2_norm&quot;</span><span class="p">:</span> <span class="n">l2_norm</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+            <span class="s2">&quot;l2_loss&quot;</span><span class="p">:</span> <span class="n">l2_loss</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+        <span class="p">}</span>
 
         <span class="k">return</span> <span class="n">loss</span><span class="p">,</span> <span class="n">stats_dict</span>
 
@@ -447,7 +493,8 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
         <span class="n">batch_num</span> <span class="o">=</span> <span class="mi">0</span>
         <span class="k">for</span> <span class="n">batch</span><span class="p">,</span> <span class="n">stats_dict_it</span> <span class="ow">in</span> <span class="n">it</span><span class="p">:</span>
             <span class="n">loss</span><span class="p">,</span> <span class="n">stats_dict_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_calculate_loss</span><span class="p">(</span>
-                <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;obs&quot;</span><span class="p">],</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;acts&quot;</span><span class="p">])</span>
+                <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;obs&quot;</span><span class="p">],</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;acts&quot;</span><span class="p">]</span>
+            <span class="p">)</span>
 
             <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
             <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
@@ -464,11 +511,11 @@ <h1>Source code for pantheonrl.algos.bc</h1><div class="highlight"><pre>
 <div class="viewcode-block" id="BC.save_policy">
 <a class="viewcode-back" href="../../../_autosummary/pantheonrl.algos.bc.BC.html#pantheonrl.algos.bc.BC.save_policy">[docs]</a>
     <span class="k">def</span> <span class="nf">save_policy</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">policy_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Save policy to a path. Can be reloaded by `.reconstruct_policy()`.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Save policy to a patorch. Can be reloaded by `.reconstruct_policy()`.</span>
 <span class="sd">        Args:</span>
 <span class="sd">            policy_path: path to save policy to.</span>
 <span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">th</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="p">,</span> <span class="n">policy_path</span><span class="p">)</span></div>
+        <span class="n">torch</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="p">,</span> <span class="n">policy_path</span><span class="p">)</span></div>
 </div>
 
 </pre></div>
diff --git a/docs_build/build/html/_modules/pantheonrl/algos/modular/learn.html b/docs_build/build/html/_modules/pantheonrl/algos/modular/learn.html
index dde2c53..659428d 100644
--- a/docs_build/build/html/_modules/pantheonrl/algos/modular/learn.html
+++ b/docs_build/build/html/_modules/pantheonrl/algos/modular/learn.html
@@ -74,26 +74,36 @@
            <div itemprop="articleBody">
              
   <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">time</span>
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Callable</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Type</span><span class="p">,</span> <span class="n">Union</span>
+<span></span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">Implementation of the Modular Algorithm.</span>
+<span class="sd">&quot;&quot;&quot;</span>
+
+<span class="kn">import</span> <span class="nn">time</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Type</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">warnings</span>
 
 <span class="kn">import</span> <span class="nn">gymnasium</span> <span class="k">as</span> <span class="nn">gym</span>
 <span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-<span class="kn">import</span> <span class="nn">torch</span> <span class="k">as</span> <span class="nn">th</span>
+<span class="kn">import</span> <span class="nn">torch</span>
 <span class="kn">from</span> <span class="nn">gymnasium</span> <span class="kn">import</span> <span class="n">spaces</span>
 <span class="kn">from</span> <span class="nn">torch.nn</span> <span class="kn">import</span> <span class="n">functional</span> <span class="k">as</span> <span class="n">F</span>
 
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.on_policy_algorithm</span> <span class="kn">import</span> <span class="n">OnPolicyAlgorithm</span>
 
-<span class="kn">from</span> <span class="nn">stable_baselines3.common</span> <span class="kn">import</span> <span class="n">logger</span>
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.base_class</span> <span class="kn">import</span> <span class="n">BaseAlgorithm</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.buffers</span> <span class="kn">import</span> <span class="n">RolloutBuffer</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.callbacks</span> <span class="kn">import</span> <span class="n">BaseCallback</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.policies</span> <span class="kn">import</span> <span class="n">ActorCriticPolicy</span>
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.type_aliases</span> <span class="kn">import</span> <span class="n">GymEnv</span><span class="p">,</span> <span class="n">MaybeCallback</span><span class="p">,</span> <span class="n">Schedule</span>
+<span class="kn">from</span> <span class="nn">stable_baselines3.common.type_aliases</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">GymEnv</span><span class="p">,</span>
+    <span class="n">MaybeCallback</span><span class="p">,</span>
+    <span class="n">Schedule</span><span class="p">,</span>
+<span class="p">)</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.utils</span> <span class="kn">import</span> <span class="n">safe_mean</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.vec_env</span> <span class="kn">import</span> <span class="n">VecEnv</span>
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.utils</span> <span class="kn">import</span> <span class="n">explained_variance</span><span class="p">,</span> <span class="n">get_schedule_fn</span>
+<span class="kn">from</span> <span class="nn">stable_baselines3.common.utils</span> <span class="kn">import</span> <span class="n">get_schedule_fn</span>
+
+
 
 <div class="viewcode-block" id="ModularAlgorithm">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.html#pantheonrl.algos.modular.learn.ModularAlgorithm">[docs]</a>
@@ -121,18 +131,16 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
         <span class="n">sde_sample_freq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span>
         <span class="n">target_kl</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">tensorboard_log</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="n">create_eval_env</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
         <span class="n">policy_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">verbose</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
         <span class="n">seed</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="n">device</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">device</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;auto&quot;</span><span class="p">,</span>
+        <span class="n">device</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;auto&quot;</span><span class="p">,</span>
         <span class="n">_init_setup_model</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-        
         <span class="c1"># my additional arguments</span>
-        <span class="n">marginal_reg_coef</span> <span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">marginal_reg_coef</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
     <span class="p">):</span>
 
-        <span class="nb">super</span><span class="p">(</span><span class="n">ModularAlgorithm</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
             <span class="n">policy</span><span class="p">,</span>
             <span class="n">env</span><span class="p">,</span>
             <span class="n">learning_rate</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
@@ -148,7 +156,6 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
             <span class="n">policy_kwargs</span><span class="o">=</span><span class="n">policy_kwargs</span><span class="p">,</span>
             <span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">,</span>
             <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span>
-            <span class="n">create_eval_env</span><span class="o">=</span><span class="n">create_eval_env</span><span class="p">,</span>
             <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
             <span class="n">_init_setup_model</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
             <span class="n">supported_action_spaces</span><span class="o">=</span><span class="p">(</span>
@@ -158,14 +165,15 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
                 <span class="n">spaces</span><span class="o">.</span><span class="n">MultiBinary</span><span class="p">,</span>
             <span class="p">),</span>
         <span class="p">)</span>
-        
+
         <span class="bp">self</span><span class="o">.</span><span class="n">marginal_reg_coef</span> <span class="o">=</span> <span class="n">marginal_reg_coef</span>
 
         <span class="c1"># Sanity check, otherwise it will lead to noisy gradient and NaN</span>
         <span class="c1"># because of the advantage normalization</span>
         <span class="k">assert</span> <span class="p">(</span>
             <span class="n">batch_size</span> <span class="o">&gt;</span> <span class="mi">1</span>
-        <span class="p">),</span> <span class="s2">&quot;`batch_size` must be greater than 1. See https://github.com/DLR-RM/stable-baselines3/issues/440&quot;</span>
+        <span class="p">),</span> <span class="s2">&quot;`batch_size` must be greater than 1. </span><span class="se">\</span>
+<span class="s2">        See https://github.com/DLR-RM/stable-baselines3/issues/440&quot;</span>
 
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">env</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
             <span class="c1"># Check that `n_steps * n_envs &gt; 1` to avoid NaN</span>
@@ -173,17 +181,15 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
             <span class="n">buffer_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span>
             <span class="k">assert</span> <span class="p">(</span>
                 <span class="n">buffer_size</span> <span class="o">&gt;</span> <span class="mi">1</span>
-            <span class="p">),</span> <span class="sa">f</span><span class="s2">&quot;`n_steps * n_envs` must be greater than 1. Currently n_steps=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="si">}</span><span class="s2"> and n_envs=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span><span class="si">}</span><span class="s2">&quot;</span>
-            <span class="c1"># Check that the rollout buffer size is a multiple of the mini-batch size</span>
-            <span class="n">untruncated_batches</span> <span class="o">=</span> <span class="n">buffer_size</span> <span class="o">//</span> <span class="n">batch_size</span>
+            <span class="p">),</span> <span class="sa">f</span><span class="s2">&quot;`n_steps * n_envs` must be greater than 1. </span><span class="se">\</span>
+<span class="s2">            Currently n_steps=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="si">}</span><span class="s2"> and n_envs=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="c1"># Check that the rollout buffer size is</span>
+            <span class="c1"># a multiple of the mini-batch size</span>
             <span class="k">if</span> <span class="n">buffer_size</span> <span class="o">%</span> <span class="n">batch_size</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
                 <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
                     <span class="sa">f</span><span class="s2">&quot;You have specified a mini-batch size of </span><span class="si">{</span><span class="n">batch_size</span><span class="si">}</span><span class="s2">,&quot;</span>
-                    <span class="sa">f</span><span class="s2">&quot; but because the `RolloutBuffer` is of size `n_steps * n_envs = </span><span class="si">{</span><span class="n">buffer_size</span><span class="si">}</span><span class="s2">`,&quot;</span>
-                    <span class="sa">f</span><span class="s2">&quot; after every </span><span class="si">{</span><span class="n">untruncated_batches</span><span class="si">}</span><span class="s2"> untruncated mini-batches,&quot;</span>
-                    <span class="sa">f</span><span class="s2">&quot; there will be a truncated mini-batch of size </span><span class="si">{</span><span class="n">buffer_size</span><span class="w"> </span><span class="o">%</span><span class="w"> </span><span class="n">batch_size</span><span class="si">}</span><span class="se">\n</span><span class="s2">&quot;</span>
-                    <span class="sa">f</span><span class="s2">&quot;We recommend using a `batch_size` that is a factor of `n_steps * n_envs`.</span><span class="se">\n</span><span class="s2">&quot;</span>
-                    <span class="sa">f</span><span class="s2">&quot;Info: (n_steps=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="si">}</span><span class="s2"> and n_envs=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span><span class="si">}</span><span class="s2">)&quot;</span>
+                    <span class="sa">f</span><span class="s2">&quot; but the `RolloutBuffer` is of size </span><span class="se">\</span>
+<span class="s2">                    `n_steps * n_envs = </span><span class="si">{</span><span class="n">buffer_size</span><span class="si">}</span><span class="s2">`.&quot;</span>
                 <span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span> <span class="o">=</span> <span class="n">batch_size</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">n_epochs</span> <span class="o">=</span> <span class="n">n_epochs</span>
@@ -191,11 +197,13 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
         <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="o">=</span> <span class="n">clip_range_vf</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span> <span class="o">=</span> <span class="n">target_kl</span>
 
+        <span class="bp">self</span><span class="o">.</span><span class="n">_last_dones</span> <span class="o">=</span> <span class="kc">None</span>
+
         <span class="k">if</span> <span class="n">_init_setup_model</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">_setup_model</span><span class="p">()</span>
 
     <span class="k">def</span> <span class="nf">_setup_model</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-        
+
         <span class="c1"># OnPolicyAlgorithm&#39;s _setup_model</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">_setup_lr_schedule</span><span class="p">()</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">set_random_seed</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">seed</span><span class="p">)</span>
@@ -205,48 +213,59 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
             <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">lr_schedule</span><span class="p">,</span>
             <span class="n">use_sde</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_sde</span><span class="p">,</span>
-            <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">policy_kwargs</span>  <span class="c1"># pytype:disable=not-instantiable</span>
+            <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">policy_kwargs</span><span class="p">,</span>  <span class="c1"># pytype:disable=not-instantiable</span>
         <span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">policy</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-        
-        <span class="n">buffer_cls</span> <span class="o">=</span> <span class="n">DictRolloutBuffer</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">observation_space</span><span class="p">,</span> <span class="n">gym</span><span class="o">.</span><span class="n">spaces</span><span class="o">.</span><span class="n">Dict</span><span class="p">)</span> <span class="k">else</span> <span class="n">RolloutBuffer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rollout_buffer</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">RolloutBuffer</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">observation_space</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+                <span class="n">gamma</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">gamma</span><span class="p">,</span>
+                <span class="n">gae_lambda</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">gae_lambda</span><span class="p">,</span>
+                <span class="n">n_envs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">n_envs</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">num_partners</span><span class="p">)</span>
+        <span class="p">]</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">rollout_buffer</span> <span class="o">=</span> <span class="p">[</span><span class="n">buffer_cls</span><span class="p">(</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="p">,</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">observation_space</span><span class="p">,</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
-            <span class="n">gamma</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">gamma</span><span class="p">,</span>
-            <span class="n">gae_lambda</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">gae_lambda</span><span class="p">,</span>
-            <span class="n">n_envs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">n_envs</span><span class="p">,</span>
-        <span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">num_partners</span><span class="p">)]</span>
-        
         <span class="c1"># PPO&#39;s _setup_model</span>
         <span class="c1"># Initialize schedules for policy/value clipping</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">clip_range</span> <span class="o">=</span> <span class="n">get_schedule_fn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">clip_range</span><span class="p">)</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
             <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span><span class="p">,</span> <span class="p">(</span><span class="nb">float</span><span class="p">,</span> <span class="nb">int</span><span class="p">)):</span>
-                <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span> <span class="s2">&quot;`clip_range_vf` must be positive, &quot;</span> <span class="s2">&quot;pass `None` to deactivate vf clipping&quot;</span>
+                <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span> <span class="p">(</span>
+                    <span class="s2">&quot;`clip_range_vf` must be positive, &quot;</span>
+                    <span class="s2">&quot;pass `None` to deactivate vf clipping&quot;</span>
+                <span class="p">)</span>
 
             <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="o">=</span> <span class="n">get_schedule_fn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span><span class="p">)</span>
-        
+
 <div class="viewcode-block" id="ModularAlgorithm.collect_rollouts">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.html#pantheonrl.algos.modular.learn.ModularAlgorithm.collect_rollouts">[docs]</a>
     <span class="k">def</span> <span class="nf">collect_rollouts</span><span class="p">(</span>
-        <span class="bp">self</span><span class="p">,</span> <span class="n">env</span><span class="p">:</span> <span class="n">VecEnv</span><span class="p">,</span> <span class="n">callback</span><span class="p">:</span> <span class="n">BaseCallback</span><span class="p">,</span> <span class="n">rollout_buffer</span><span class="p">:</span> <span class="n">RolloutBuffer</span><span class="p">,</span> <span class="n">n_rollout_steps</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">env</span><span class="p">:</span> <span class="n">VecEnv</span><span class="p">,</span>
+        <span class="n">callback</span><span class="p">:</span> <span class="n">BaseCallback</span><span class="p">,</span>
+        <span class="n">rollout_buffer</span><span class="p">:</span> <span class="n">RolloutBuffer</span><span class="p">,</span>
+        <span class="n">n_rollout_steps</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
     <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Collect rollouts using the current policy and fill a `RolloutBuffer`.</span>
 
 <span class="sd">        :param env: (VecEnv) The training environment</span>
-<span class="sd">        :param callback: (BaseCallback) Callback that will be called at each step</span>
-<span class="sd">            (and at the beginning and end of the rollout)</span>
+<span class="sd">        :param callback: (BaseCallback) Callback that will be called at each</span>
+<span class="sd">            step (and at the beginning and end of the rollout)</span>
 <span class="sd">        :param rollout_buffer: (RolloutBuffer) Buffer to fill with rollouts</span>
 <span class="sd">        :param n_steps: (int) Number of experiences to collect per environment</span>
-<span class="sd">        :return: (bool) True if function returned with at least `n_rollout_steps`</span>
-<span class="sd">            collected, False if callback terminated rollout prematurely.</span>
+<span class="sd">        :return: (bool) True if function returned with at least</span>
+<span class="sd">            `n_rollout_steps` collected, False if callback terminated rollout</span>
+<span class="sd">            prematurely.</span>
 <span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;No previous observation was provided&quot;</span>
+        <span class="k">assert</span> <span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+        <span class="p">),</span> <span class="s2">&quot;No previous observation was provided&quot;</span>
         <span class="n">n_steps</span> <span class="o">=</span> <span class="mi">0</span>
         <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
         <span class="c1"># Sample new weights for the state dependent exploration</span>
@@ -257,22 +276,31 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
 
         <span class="bp">self</span><span class="o">.</span><span class="n">_last_dones</span> <span class="o">=</span> <span class="kc">None</span>
         <span class="k">while</span> <span class="n">n_steps</span> <span class="o">&lt;</span> <span class="n">n_rollout_steps</span><span class="p">:</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_sde</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_sample_freq</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="n">n_steps</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_sample_freq</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">envs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set_partnerid</span><span class="p">(</span><span class="n">partner_idx</span><span class="p">)</span>
+            <span class="k">if</span> <span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">use_sde</span>
+                <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_sample_freq</span> <span class="o">&gt;</span> <span class="mi">0</span>
+                <span class="ow">and</span> <span class="n">n_steps</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_sample_freq</span> <span class="o">==</span> <span class="mi">0</span>
+            <span class="p">):</span>
                 <span class="c1"># Sample a new noise matrix</span>
                 <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">reset_noise</span><span class="p">(</span><span class="n">env</span><span class="o">.</span><span class="n">num_envs</span><span class="p">)</span>
 
-            <span class="k">with</span> <span class="n">th</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
                 <span class="c1"># Convert to pytorch tensor</span>
-                <span class="n">obs_tensor</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">as_tensor</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-                <span class="c1">#actions, values, log_probs = self.policy.forward(obs_tensor)</span>
-                <span class="n">actions</span><span class="p">,</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_probs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">forward</span><span class="p">(</span><span class="n">obs_tensor</span><span class="p">,</span> <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span><span class="p">)</span>
+                <span class="n">obs_tensor</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">as_tensor</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                <span class="c1"># actions, values, log_probs = self.policy.forward(obs_tensor)</span>
+                <span class="n">actions</span><span class="p">,</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_probs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">forward</span><span class="p">(</span>
+                    <span class="n">obs_tensor</span><span class="p">,</span> <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span>
+                <span class="p">)</span>
             <span class="n">actions</span> <span class="o">=</span> <span class="n">actions</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
 
             <span class="c1"># Rescale and perform action</span>
             <span class="n">clipped_actions</span> <span class="o">=</span> <span class="n">actions</span>
             <span class="c1"># Clip the actions to avoid out of bound error</span>
             <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span> <span class="n">gym</span><span class="o">.</span><span class="n">spaces</span><span class="o">.</span><span class="n">Box</span><span class="p">):</span>
-                <span class="n">clipped_actions</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">actions</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">low</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">high</span><span class="p">)</span>
+                <span class="n">clipped_actions</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span>
+                    <span class="n">actions</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">low</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">high</span>
+                <span class="p">)</span>
 
             <span class="n">env</span><span class="o">.</span><span class="n">envs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set_partnerid</span><span class="p">(</span><span class="n">partner_idx</span><span class="p">)</span>
             <span class="n">new_obs</span><span class="p">,</span> <span class="n">rewards</span><span class="p">,</span> <span class="n">dones</span><span class="p">,</span> <span class="n">infos</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">clipped_actions</span><span class="p">)</span>
@@ -287,7 +315,14 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
             <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span> <span class="n">gym</span><span class="o">.</span><span class="n">spaces</span><span class="o">.</span><span class="n">Discrete</span><span class="p">):</span>
                 <span class="c1"># Reshape in case of discrete action</span>
                 <span class="n">actions</span> <span class="o">=</span> <span class="n">actions</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-            <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span><span class="p">,</span> <span class="n">actions</span><span class="p">,</span> <span class="n">rewards</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">_last_dones</span><span class="p">,</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_probs</span><span class="p">)</span>
+            <span class="n">rollout_buffer</span><span class="o">.</span><span class="n">add</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span><span class="p">,</span>
+                <span class="n">actions</span><span class="p">,</span>
+                <span class="n">rewards</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">_last_dones</span><span class="p">,</span>
+                <span class="n">values</span><span class="p">,</span>
+                <span class="n">log_probs</span><span class="p">,</span>
+            <span class="p">)</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">_last_obs</span> <span class="o">=</span> <span class="n">new_obs</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">_last_dones</span> <span class="o">=</span> <span class="n">dones</span>
 
@@ -297,8 +332,7 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
 
         <span class="k">return</span> <span class="kc">True</span></div>
 
-    
-    
+
 <div class="viewcode-block" id="ModularAlgorithm.train">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.html#pantheonrl.algos.modular.learn.ModularAlgorithm.train">[docs]</a>
     <span class="k">def</span> <span class="nf">train</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
@@ -312,7 +346,9 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
         <span class="n">clip_range</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_current_progress_remaining</span><span class="p">)</span>
         <span class="c1"># Optional: clip range for the value function</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">clip_range_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_current_progress_remaining</span><span class="p">)</span>
+            <span class="n">clip_range_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">_current_progress_remaining</span>
+            <span class="p">)</span>
 
         <span class="n">entropy_losses</span><span class="p">,</span> <span class="n">all_kl_divs</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[]</span>
         <span class="n">pg_losses</span><span class="p">,</span> <span class="n">value_losses</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[]</span>
@@ -324,36 +360,48 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
                 <span class="n">approx_kl_divs</span> <span class="o">=</span> <span class="p">[]</span>
                 <span class="c1"># Do a complete pass on the rollout buffer</span>
                 <span class="c1"># for rollout_data in self.rollout_buffer.get(self.batch_size):</span>
-                <span class="k">for</span> <span class="n">rollout_data</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">rollout_buffer</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">]</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">):</span>
+                <span class="k">for</span> <span class="n">rollout_data</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">rollout_buffer</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">]</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span>
+                <span class="p">):</span>
                     <span class="n">actions</span> <span class="o">=</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">actions</span>
                     <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_space</span><span class="p">,</span> <span class="n">spaces</span><span class="o">.</span><span class="n">Discrete</span><span class="p">):</span>
                         <span class="c1"># Convert discrete action from float to long</span>
                         <span class="n">actions</span> <span class="o">=</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">actions</span><span class="o">.</span><span class="n">long</span><span class="p">()</span><span class="o">.</span><span class="n">flatten</span><span class="p">()</span>
 
-                    <span class="c1"># Re-sample the noise matrix because the log_std has changed</span>
-                    <span class="c1"># TODO: investigate why there is no issue with the gradient</span>
+                    <span class="c1"># Re-sample the noise matrix because the log_std changed</span>
+                    <span class="c1"># investigate why there is no issue with the gradient</span>
                     <span class="c1"># if that line is commented (as in SAC)</span>
                     <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_sde</span><span class="p">:</span>
                         <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">reset_noise</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">)</span>
 
-                    <span class="c1">#values, log_prob, entropy = self.policy.evaluate_actions(rollout_data.observations, actions)</span>
-                    <span class="n">values</span><span class="p">,</span> <span class="n">log_prob</span><span class="p">,</span> <span class="n">entropy</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">evaluate_actions</span><span class="p">(</span><span class="n">rollout_data</span><span class="o">.</span><span class="n">observations</span><span class="p">,</span> <span class="n">actions</span><span class="p">,</span> <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span><span class="p">)</span> 
+                    <span class="n">values</span><span class="p">,</span> <span class="n">log_prob</span><span class="p">,</span> <span class="n">entropy</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">evaluate_actions</span><span class="p">(</span>
+                        <span class="n">rollout_data</span><span class="o">.</span><span class="n">observations</span><span class="p">,</span>
+                        <span class="n">actions</span><span class="p">,</span>
+                        <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span><span class="p">,</span>
+                    <span class="p">)</span>
                     <span class="n">values</span> <span class="o">=</span> <span class="n">values</span><span class="o">.</span><span class="n">flatten</span><span class="p">()</span>
                     <span class="c1"># Normalize advantage</span>
                     <span class="n">advantages</span> <span class="o">=</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">advantages</span>
-                    <span class="n">advantages</span> <span class="o">=</span> <span class="p">(</span><span class="n">advantages</span> <span class="o">-</span> <span class="n">advantages</span><span class="o">.</span><span class="n">mean</span><span class="p">())</span> <span class="o">/</span> <span class="p">(</span><span class="n">advantages</span><span class="o">.</span><span class="n">std</span><span class="p">()</span> <span class="o">+</span> <span class="mf">1e-8</span><span class="p">)</span>
+                    <span class="n">advantages</span> <span class="o">=</span> <span class="p">(</span><span class="n">advantages</span> <span class="o">-</span> <span class="n">advantages</span><span class="o">.</span><span class="n">mean</span><span class="p">())</span> <span class="o">/</span> <span class="p">(</span>
+                        <span class="n">advantages</span><span class="o">.</span><span class="n">std</span><span class="p">()</span> <span class="o">+</span> <span class="mf">1e-8</span>
+                    <span class="p">)</span>
 
-                    <span class="c1"># ratio between old and new policy, should be one at the first iteration</span>
-                    <span class="n">ratio</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">log_prob</span> <span class="o">-</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_log_prob</span><span class="p">)</span>
+                    <span class="c1"># ratio between old and new policy, should be</span>
+                    <span class="c1"># one at the first iteration</span>
+                    <span class="n">ratio</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">log_prob</span> <span class="o">-</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_log_prob</span><span class="p">)</span>
 
                     <span class="c1"># clipped surrogate loss</span>
                     <span class="n">policy_loss_1</span> <span class="o">=</span> <span class="n">advantages</span> <span class="o">*</span> <span class="n">ratio</span>
-                    <span class="n">policy_loss_2</span> <span class="o">=</span> <span class="n">advantages</span> <span class="o">*</span> <span class="n">th</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="n">ratio</span><span class="p">,</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">clip_range</span><span class="p">,</span> <span class="mi">1</span> <span class="o">+</span> <span class="n">clip_range</span><span class="p">)</span>
-                    <span class="n">policy_loss</span> <span class="o">=</span> <span class="o">-</span><span class="n">th</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="n">policy_loss_1</span><span class="p">,</span> <span class="n">policy_loss_2</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+                    <span class="n">policy_loss_2</span> <span class="o">=</span> <span class="n">advantages</span> <span class="o">*</span> <span class="n">torch</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span>
+                        <span class="n">ratio</span><span class="p">,</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">clip_range</span><span class="p">,</span> <span class="mi">1</span> <span class="o">+</span> <span class="n">clip_range</span>
+                    <span class="p">)</span>
+                    <span class="n">policy_loss</span> <span class="o">=</span> <span class="o">-</span><span class="n">torch</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="n">policy_loss_1</span><span class="p">,</span> <span class="n">policy_loss_2</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
 
                     <span class="c1"># Logging</span>
                     <span class="n">pg_losses</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">policy_loss</span><span class="o">.</span><span class="n">item</span><span class="p">())</span>
-                    <span class="n">clip_fraction</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">mean</span><span class="p">((</span><span class="n">th</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">ratio</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">clip_range</span><span class="p">)</span><span class="o">.</span><span class="n">float</span><span class="p">())</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="n">clip_fraction</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span>
+                        <span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">ratio</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">clip_range</span><span class="p">)</span><span class="o">.</span><span class="n">float</span><span class="p">()</span>
+                    <span class="p">)</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
                     <span class="n">clip_fractions</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">clip_fraction</span><span class="p">)</span>
 
                     <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">clip_range_vf</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
@@ -362,8 +410,10 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
                     <span class="k">else</span><span class="p">:</span>
                         <span class="c1"># Clip the different between old and new value</span>
                         <span class="c1"># NOTE: this depends on the reward scaling</span>
-                        <span class="n">values_pred</span> <span class="o">=</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_values</span> <span class="o">+</span> <span class="n">th</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span>
-                            <span class="n">values</span> <span class="o">-</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_values</span><span class="p">,</span> <span class="o">-</span><span class="n">clip_range_vf</span><span class="p">,</span> <span class="n">clip_range_vf</span>
+                        <span class="n">values_pred</span> <span class="o">=</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_values</span> <span class="o">+</span> <span class="n">torch</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span>
+                            <span class="n">values</span> <span class="o">-</span> <span class="n">rollout_data</span><span class="o">.</span><span class="n">old_values</span><span class="p">,</span>
+                            <span class="o">-</span><span class="n">clip_range_vf</span><span class="p">,</span>
+                            <span class="n">clip_range_vf</span><span class="p">,</span>
                         <span class="p">)</span>
                     <span class="c1"># Value loss using the TD(gae_lambda) target</span>
                     <span class="n">value_loss</span> <span class="o">=</span> <span class="n">F</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">rollout_data</span><span class="o">.</span><span class="n">returns</span><span class="p">,</span> <span class="n">values_pred</span><span class="p">)</span>
@@ -374,65 +424,100 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
                         <span class="c1"># Approximate entropy when no analytical form</span>
                         <span class="n">entropy_loss</span> <span class="o">=</span> <span class="n">log_prob</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
                     <span class="k">else</span><span class="p">:</span>
-                        <span class="n">entropy_loss</span> <span class="o">=</span> <span class="o">-</span><span class="n">th</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">entropy</span><span class="p">)</span>
+                        <span class="n">entropy_loss</span> <span class="o">=</span> <span class="o">-</span><span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">entropy</span><span class="p">)</span>
 
                     <span class="n">entropy_losses</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">entropy_loss</span><span class="o">.</span><span class="n">item</span><span class="p">())</span>
 
                     <span class="c1">###########</span>
                     <span class="c1"># Marginal Regularization</span>
                     <span class="c1">###########</span>
-                    <span class="c1"># each action_dist is a Distribution object containing self.batch_size observations</span>
-                    <span class="c1"># dist.distribution.probs returns a tensor of shape (self.batch_size, self.action_space)</span>
+                    <span class="c1"># each action_dist is a Distribution object containing</span>
+                    <span class="c1"># self.batch_size observations dist.distribution.probs</span>
+                    <span class="c1"># returns shape (self.batch_size, self.action_space)</span>
                     <span class="c1"># dist.sample() returns a tensor of shape (self.batch_size)</span>
 
-                    <span class="c1"># careful: must extract torch distribution object from stable_baseline Distribution object, otherwise old references get overwritten</span>
-                    <span class="n">main_logits</span><span class="p">,</span> <span class="n">partner_logits</span> <span class="o">=</span> <span class="nb">zip</span><span class="p">(</span> <span class="o">*</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">get_action_logits_from_obs</span><span class="p">(</span><span class="n">rollout_data</span><span class="o">.</span><span class="n">observations</span><span class="p">,</span> <span class="n">partner_idx</span><span class="o">=</span><span class="n">idx</span><span class="p">)</span> <span class="k">for</span> <span class="n">idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">num_partners</span><span class="p">)]</span> <span class="p">)</span>
-                    <span class="n">main_logits</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">stack</span><span class="p">([</span><span class="n">logits</span> <span class="k">for</span> <span class="n">logits</span> <span class="ow">in</span> <span class="n">main_logits</span><span class="p">])</span> <span class="c1"># (num_partners, self.batch_size, self.action_space)</span>
-                    <span class="n">partner_logits</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">stack</span><span class="p">([</span><span class="n">logits</span> <span class="k">for</span> <span class="n">logits</span> <span class="ow">in</span> <span class="n">partner_logits</span><span class="p">])</span> <span class="c1"># (num_partners, self.batch_size, self.action_space)</span>
+                    <span class="c1"># careful: must extract torch distribution object from</span>
+                    <span class="c1"># stable_baseline Distribution object, otherwise old</span>
+                    <span class="c1"># references get overwritten</span>
+                    <span class="n">main_logits</span><span class="p">,</span> <span class="n">partner_logits</span> <span class="o">=</span> <span class="nb">zip</span><span class="p">(</span>
+                        <span class="o">*</span><span class="p">[</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">get_action_logits_from_obs</span><span class="p">(</span>
+                                <span class="n">rollout_data</span><span class="o">.</span><span class="n">observations</span><span class="p">,</span> <span class="n">partner_idx</span><span class="o">=</span><span class="n">idx</span>
+                            <span class="p">)</span>
+                            <span class="k">for</span> <span class="n">idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">num_partners</span><span class="p">)</span>
+                        <span class="p">]</span>
+                    <span class="p">)</span>
+                    <span class="n">main_logits</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span>
+                        <span class="nb">list</span><span class="p">(</span><span class="n">main_logits</span><span class="p">)</span>
+                    <span class="p">)</span>  <span class="c1"># (num_partners, self.batch_size, self.action_space)</span>
+                    <span class="n">partner_logits</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span>
+                        <span class="nb">list</span><span class="p">(</span><span class="n">partner_logits</span><span class="p">)</span>
+                    <span class="p">)</span>  <span class="c1"># (num_partners, self.batch_size, self.action_space)</span>
                     <span class="n">composed_logits</span> <span class="o">=</span> <span class="n">main_logits</span> <span class="o">+</span> <span class="n">partner_logits</span>
 
                     <span class="c1"># Regularize main prob to be the marginals</span>
-                    <span class="c1"># Wasserstein metric with unitary distances (for categorical actions)</span>
-                    <span class="n">main_probs</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span> <span class="n">th</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">main_logits</span> <span class="o">-</span> <span class="n">main_logits</span><span class="o">.</span><span class="n">logsumexp</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">,</span> <span class="n">keepdim</span><span class="o">=</span><span class="kc">True</span><span class="p">)),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span> <span class="p">)</span>
-                    <span class="n">composed_probs</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span> <span class="n">th</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">composed_logits</span> <span class="o">-</span> <span class="n">composed_logits</span><span class="o">.</span><span class="n">logsumexp</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">,</span> <span class="n">keepdim</span><span class="o">=</span><span class="kc">True</span><span class="p">)),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span> <span class="p">)</span>
-                    <span class="n">marginal_regularization_loss</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">th</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span> <span class="n">th</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">main_probs</span> <span class="o">-</span> <span class="n">composed_probs</span><span class="p">),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">))</span>
+                    <span class="c1"># Wasserstein metric with unitary distances</span>
+                    <span class="c1"># (for categorical actions)</span>
+                    <span class="n">main_probs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span>
+                        <span class="n">torch</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span>
+                            <span class="n">main_logits</span>
+                            <span class="o">-</span> <span class="n">main_logits</span><span class="o">.</span><span class="n">logsumexp</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">,</span> <span class="n">keepdim</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                        <span class="p">),</span>
+                        <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">composed_probs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span>
+                        <span class="n">torch</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span>
+                            <span class="n">composed_logits</span>
+                            <span class="o">-</span> <span class="n">composed_logits</span><span class="o">.</span><span class="n">logsumexp</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">,</span> <span class="n">keepdim</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                        <span class="p">),</span>
+                        <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">marginal_regularization_loss</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span>
+                        <span class="n">torch</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">main_probs</span> <span class="o">-</span> <span class="n">composed_probs</span><span class="p">),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+                    <span class="p">)</span>
                     <span class="c1">###########</span>
 
-                    <span class="n">loss</span> <span class="o">=</span> <span class="n">policy_loss</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">ent_coef</span> <span class="o">*</span> <span class="n">entropy_loss</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">vf_coef</span> <span class="o">*</span> <span class="n">value_loss</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">marginal_reg_coef</span> <span class="o">*</span> <span class="n">marginal_regularization_loss</span>
+                    <span class="n">loss</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">policy_loss</span>
+                        <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">ent_coef</span> <span class="o">*</span> <span class="n">entropy_loss</span>
+                        <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">vf_coef</span> <span class="o">*</span> <span class="n">value_loss</span>
+                        <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">marginal_reg_coef</span> <span class="o">*</span> <span class="n">marginal_regularization_loss</span>
+                    <span class="p">)</span>
 
                     <span class="c1"># Optimization step</span>
                     <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
                     <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
                     <span class="c1"># Clip grad norm</span>
-                    <span class="n">th</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">clip_grad_norm_</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_grad_norm</span><span class="p">)</span>
+                    <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">clip_grad_norm_</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_grad_norm</span>
+                    <span class="p">)</span>
                     <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
-                    <span class="n">approx_kl_divs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">th</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">rollout_data</span><span class="o">.</span><span class="n">old_log_prob</span> <span class="o">-</span> <span class="n">log_prob</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">())</span>
+                    <span class="n">approx_kl_divs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                        <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">rollout_data</span><span class="o">.</span><span class="n">old_log_prob</span> <span class="o">-</span> <span class="n">log_prob</span><span class="p">)</span>
+                        <span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+                        <span class="o">.</span><span class="n">cpu</span><span class="p">()</span>
+                        <span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+                    <span class="p">)</span>
 
                 <span class="n">all_kl_divs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">approx_kl_divs</span><span class="p">))</span>
 
-                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">approx_kl_divs</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mf">1.5</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span><span class="p">:</span>
-                    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Early stopping at step </span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2"> due to reaching max kl: </span><span class="si">{</span><span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">approx_kl_divs</span><span class="p">)</span><span class="si">:</span><span class="s2">.2f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                    <span class="ow">and</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">approx_kl_divs</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mf">1.5</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span>
+                <span class="p">):</span>
+                    <span class="nb">print</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Early stopping at step </span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2"> due to reaching </span><span class="se">\</span>
+<span class="s2">                        max kl: </span><span class="si">{</span><span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">approx_kl_divs</span><span class="p">)</span><span class="si">:</span><span class="s2">.2f</span><span class="si">}</span><span class="s2">&quot;</span>
+                    <span class="p">)</span>
                     <span class="k">break</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">_n_updates</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_epochs</span>
-        <span class="c1"># explained_var = explained_variance(self.rollout_buffer.returns.flatten(), self.rollout_buffer.values.flatten())</span>
-        
+
         <span class="c1"># Logs</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/entropy_loss&quot;</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">entropy_losses</span><span class="p">))</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/policy_gradient_loss&quot;</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">pg_losses</span><span class="p">))</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;train/value_loss&quot;</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">value_losses</span><span class="p">))</span></div>
 
-        <span class="c1"># self.logger.record(&quot;train/approx_kl&quot;, np.mean(approx_kl_divs))</span>
-        <span class="c1"># self.logger.record(&quot;train/clip_fraction&quot;, np.mean(clip_fractions))</span>
-        <span class="c1"># self.logger.record(&quot;train/loss&quot;, loss.item())</span>
-        <span class="c1"># self.logger.record(&quot;train/explained_variance&quot;, explained_var)</span>
-        <span class="c1"># if hasattr(self.policy, &quot;log_std&quot;):</span>
-        <span class="c1">#     self.logger.record(&quot;train/std&quot;, th.exp(self.policy.log_std).mean().item())</span>
-
-        <span class="c1"># self.logger.record(&quot;train/n_updates&quot;, self._n_updates, exclude=&quot;tensorboard&quot;)</span>
-        <span class="c1"># self.logger.record(&quot;train/clip_range&quot;, clip_range)</span>
-        <span class="c1"># if self.clip_range_vf is not None:</span>
-        <span class="c1">#     self.logger.record(&quot;train/clip_range_vf&quot;, clip_range_vf)</span>
 
 <div class="viewcode-block" id="ModularAlgorithm.learn">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.html#pantheonrl.algos.modular.learn.ModularAlgorithm.learn">[docs]</a>
@@ -441,17 +526,19 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
         <span class="n">total_timesteps</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
         <span class="n">callback</span><span class="p">:</span> <span class="n">MaybeCallback</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">log_interval</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
-        <span class="n">eval_env</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">GymEnv</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="n">eval_freq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span>
-        <span class="n">n_eval_episodes</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">5</span><span class="p">,</span>
         <span class="n">tb_log_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;OnPolicyAlgorithm&quot;</span><span class="p">,</span>
-        <span class="n">eval_log_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">reset_num_timesteps</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">progress_bar</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
     <span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;OnPolicyAlgorithm&quot;</span><span class="p">:</span>
         <span class="n">iteration</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">envs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set_resample_policy</span><span class="p">(</span><span class="s2">&quot;null&quot;</span><span class="p">)</span>
 
         <span class="n">total_timesteps</span><span class="p">,</span> <span class="n">callback</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_setup_learn</span><span class="p">(</span>
-            <span class="n">total_timesteps</span><span class="p">,</span> <span class="n">eval_env</span><span class="p">,</span> <span class="n">callback</span><span class="p">,</span> <span class="n">eval_freq</span><span class="p">,</span> <span class="n">n_eval_episodes</span><span class="p">,</span> <span class="n">eval_log_path</span><span class="p">,</span> <span class="n">reset_num_timesteps</span><span class="p">,</span> <span class="n">tb_log_name</span>
+            <span class="n">total_timesteps</span><span class="p">,</span>
+            <span class="n">callback</span><span class="p">,</span>
+            <span class="n">reset_num_timesteps</span><span class="p">,</span>
+            <span class="n">tb_log_name</span><span class="p">,</span>
+            <span class="n">progress_bar</span>
         <span class="p">)</span>
 
         <span class="n">callback</span><span class="o">.</span><span class="n">on_training_start</span><span class="p">(</span><span class="nb">locals</span><span class="p">(),</span> <span class="nb">globals</span><span class="p">())</span>
@@ -459,28 +546,56 @@ <h1>Source code for pantheonrl.algos.modular.learn</h1><div class="highlight"><p
         <span class="k">while</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span> <span class="o">&lt;</span> <span class="n">total_timesteps</span><span class="p">:</span>
 
             <span class="k">for</span> <span class="n">partner_idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">num_partners</span><span class="p">):</span>
-                <span class="k">try</span><span class="p">:</span>    <span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">envs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set_partnerid</span><span class="p">(</span><span class="n">partner_idx</span><span class="p">)</span>
-                <span class="k">except</span><span class="p">:</span> 
-                    <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;unable to switch&quot;</span><span class="p">)</span>
-                    <span class="k">pass</span>
-                <span class="n">continue_training</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_rollouts</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="p">,</span> <span class="n">callback</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">rollout_buffer</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">],</span> <span class="n">n_rollout_steps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="p">,</span> <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span><span class="p">)</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">envs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set_partnerid</span><span class="p">(</span><span class="n">partner_idx</span><span class="p">)</span>
+                <span class="n">continue_training</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_rollouts</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">env</span><span class="p">,</span>
+                    <span class="n">callback</span><span class="p">,</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">rollout_buffer</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">],</span>
+                    <span class="n">n_rollout_steps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="p">,</span>
+                    <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span><span class="p">,</span>
+                <span class="p">)</span>
 
             <span class="k">if</span> <span class="n">continue_training</span> <span class="ow">is</span> <span class="kc">False</span><span class="p">:</span>
                 <span class="k">break</span>
 
             <span class="n">iteration</span> <span class="o">+=</span> <span class="mi">1</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_update_current_progress_remaining</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span><span class="p">,</span> <span class="n">total_timesteps</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_update_current_progress_remaining</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span><span class="p">,</span> <span class="n">total_timesteps</span>
+            <span class="p">)</span>
 
             <span class="c1"># Display training infos</span>
             <span class="k">if</span> <span class="n">log_interval</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">iteration</span> <span class="o">%</span> <span class="n">log_interval</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
                 <span class="n">fps</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span> <span class="o">/</span> <span class="p">(</span><span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">start_time</span><span class="p">))</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;time/iterations&quot;</span><span class="p">,</span> <span class="n">iteration</span><span class="p">,</span> <span class="n">exclude</span><span class="o">=</span><span class="s2">&quot;tensorboard&quot;</span><span class="p">)</span>
-                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-                    <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;rollout/ep_rew_mean&quot;</span><span class="p">,</span> <span class="n">safe_mean</span><span class="p">([</span><span class="n">ep_info</span><span class="p">[</span><span class="s2">&quot;r&quot;</span><span class="p">]</span> <span class="k">for</span> <span class="n">ep_info</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">]))</span>
-                    <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;rollout/ep_len_mean&quot;</span><span class="p">,</span> <span class="n">safe_mean</span><span class="p">([</span><span class="n">ep_info</span><span class="p">[</span><span class="s2">&quot;l&quot;</span><span class="p">]</span> <span class="k">for</span> <span class="n">ep_info</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">]))</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
+                    <span class="s2">&quot;time/iterations&quot;</span><span class="p">,</span> <span class="n">iteration</span><span class="p">,</span> <span class="n">exclude</span><span class="o">=</span><span class="s2">&quot;tensorboard&quot;</span>
+                <span class="p">)</span>
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span>
+                    <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span> <span class="o">&gt;</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
+                        <span class="s2">&quot;rollout/ep_rew_mean&quot;</span><span class="p">,</span>
+                        <span class="n">safe_mean</span><span class="p">(</span>
+                            <span class="p">[</span><span class="n">ep_info</span><span class="p">[</span><span class="s2">&quot;r&quot;</span><span class="p">]</span> <span class="k">for</span> <span class="n">ep_info</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">]</span>
+                        <span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
+                        <span class="s2">&quot;rollout/ep_len_mean&quot;</span><span class="p">,</span>
+                        <span class="n">safe_mean</span><span class="p">(</span>
+                            <span class="p">[</span><span class="n">ep_info</span><span class="p">[</span><span class="s2">&quot;l&quot;</span><span class="p">]</span> <span class="k">for</span> <span class="n">ep_info</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">ep_info_buffer</span><span class="p">]</span>
+                        <span class="p">),</span>
+                    <span class="p">)</span>
                 <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;time/fps&quot;</span><span class="p">,</span> <span class="n">fps</span><span class="p">)</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;time/time_elapsed&quot;</span><span class="p">,</span> <span class="nb">int</span><span class="p">(</span><span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">start_time</span><span class="p">),</span> <span class="n">exclude</span><span class="o">=</span><span class="s2">&quot;tensorboard&quot;</span><span class="p">)</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="s2">&quot;time/total_timesteps&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span><span class="p">,</span> <span class="n">exclude</span><span class="o">=</span><span class="s2">&quot;tensorboard&quot;</span><span class="p">)</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
+                    <span class="s2">&quot;time/time_elapsed&quot;</span><span class="p">,</span>
+                    <span class="nb">int</span><span class="p">(</span><span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">start_time</span><span class="p">),</span>
+                    <span class="n">exclude</span><span class="o">=</span><span class="s2">&quot;tensorboard&quot;</span><span class="p">,</span>
+                <span class="p">)</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">record</span><span class="p">(</span>
+                    <span class="s2">&quot;time/total_timesteps&quot;</span><span class="p">,</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span><span class="p">,</span>
+                    <span class="n">exclude</span><span class="o">=</span><span class="s2">&quot;tensorboard&quot;</span><span class="p">,</span>
+                <span class="p">)</span>
                 <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">dump</span><span class="p">(</span><span class="n">step</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_timesteps</span><span class="p">)</span>
 
             <span class="bp">self</span><span class="o">.</span><span class="n">train</span><span class="p">()</span>
diff --git a/docs_build/build/html/_modules/pantheonrl/algos/modular/policies.html b/docs_build/build/html/_modules/pantheonrl/algos/modular/policies.html
index bb4fefe..86d85c8 100644
--- a/docs_build/build/html/_modules/pantheonrl/algos/modular/policies.html
+++ b/docs_build/build/html/_modules/pantheonrl/algos/modular/policies.html
@@ -74,28 +74,35 @@
            <div itemprop="articleBody">
              
   <h1>Source code for pantheonrl.algos.modular.policies</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">abc</span> <span class="kn">import</span> <span class="n">ABC</span><span class="p">,</span> <span class="n">abstractmethod</span>
-<span class="kn">import</span> <span class="nn">collections</span>
+<span></span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">Implementation of the policy for the ModularAlgorithm</span>
+<span class="sd">&quot;&quot;&quot;</span>
+<span class="c1"># pylint: disable=locally-disabled, no-value-for-parameter, unexpected-keyword-arg</span>
 <span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Union</span><span class="p">,</span> <span class="n">Type</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Callable</span>
 <span class="kn">from</span> <span class="nn">functools</span> <span class="kn">import</span> <span class="n">partial</span>
 
 <span class="kn">import</span> <span class="nn">gymnasium</span> <span class="k">as</span> <span class="nn">gym</span>
-<span class="kn">import</span> <span class="nn">torch</span> <span class="k">as</span> <span class="nn">th</span>
-<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">from</span> <span class="nn">torch</span> <span class="kn">import</span> <span class="n">nn</span>
 <span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
 
-<span class="kn">from</span> <span class="nn">stable_baselines3</span> <span class="kn">import</span> <span class="n">PPO</span>
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.preprocessing</span> <span class="kn">import</span> <span class="n">preprocess_obs</span><span class="p">,</span> <span class="n">is_image_space</span><span class="p">,</span> <span class="n">get_action_dim</span>
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.torch_layers</span> <span class="kn">import</span> <span class="p">(</span><span class="n">FlattenExtractor</span><span class="p">,</span> <span class="n">BaseFeaturesExtractor</span><span class="p">,</span> <span class="n">create_mlp</span><span class="p">,</span>
-                                                   <span class="n">NatureCNN</span><span class="p">,</span> <span class="n">MlpExtractor</span><span class="p">)</span>
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.utils</span> <span class="kn">import</span> <span class="n">get_device</span><span class="p">,</span> <span class="n">is_vectorized_observation</span>
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.vec_env</span> <span class="kn">import</span> <span class="n">VecTransposeImage</span>
-<span class="kn">from</span> <span class="nn">stable_baselines3.common.distributions</span> <span class="kn">import</span> <span class="p">(</span><span class="n">make_proba_distribution</span><span class="p">,</span> <span class="n">Distribution</span><span class="p">,</span>
-                                                    <span class="n">DiagGaussianDistribution</span><span class="p">,</span> <span class="n">CategoricalDistribution</span><span class="p">,</span>
-                                                    <span class="n">MultiCategoricalDistribution</span><span class="p">,</span> <span class="n">BernoulliDistribution</span><span class="p">,</span>
-                                                    <span class="n">StateDependentNoiseDistribution</span><span class="p">)</span>
+<span class="kn">from</span> <span class="nn">stable_baselines3.common.torch_layers</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">FlattenExtractor</span><span class="p">,</span>
+    <span class="n">BaseFeaturesExtractor</span><span class="p">,</span>
+    <span class="n">MlpExtractor</span><span class="p">,</span>
+<span class="p">)</span>
+<span class="kn">from</span> <span class="nn">stable_baselines3.common.distributions</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">make_proba_distribution</span><span class="p">,</span>
+    <span class="n">Distribution</span><span class="p">,</span>
+    <span class="n">DiagGaussianDistribution</span><span class="p">,</span>
+    <span class="n">CategoricalDistribution</span><span class="p">,</span>
+    <span class="n">MultiCategoricalDistribution</span><span class="p">,</span>
+    <span class="n">BernoulliDistribution</span><span class="p">,</span>
+    <span class="n">StateDependentNoiseDistribution</span><span class="p">,</span>
+<span class="p">)</span>
 <span class="kn">from</span> <span class="nn">stable_baselines3.common.policies</span> <span class="kn">import</span> <span class="n">BasePolicy</span>
 
+
 <div class="viewcode-block" id="ModularPolicy">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy">[docs]</a>
 <span class="k">class</span> <span class="nc">ModularPolicy</span><span class="p">(</span><span class="n">BasePolicy</span><span class="p">):</span>
@@ -106,7 +113,7 @@ <h1>Source code for pantheonrl.algos.modular.policies</h1><div class="highlight"
 <span class="sd">    :param action_space: (gym.spaces.Space) Action space</span>
 <span class="sd">    :param lr_schedule: (Callable) Learning rate schedule (could be constant)</span>
 <span class="sd">    :param net_arch: ([int or dict]) The specification of the policy and value networks.</span>
-<span class="sd">    :param device: (str or th.device) Device on which the code should run.</span>
+<span class="sd">    :param device: (str or torch.device) Device on which the code should run.</span>
 <span class="sd">    :param activation_fn: (Type[nn.Module]) Activation function</span>
 <span class="sd">    :param ortho_init: (bool) Whether to use or not orthogonal initialization</span>
 <span class="sd">    :param use_sde: (bool) Whether to use State Dependent Exploration or not</span>
@@ -126,78 +133,88 @@ <h1>Source code for pantheonrl.algos.modular.policies</h1><div class="highlight"
 <span class="sd">        to pass to the feature extractor.</span>
 <span class="sd">    :param normalize_images: (bool) Whether to normalize images or not,</span>
 <span class="sd">         dividing by 255.0 (True by default)</span>
-<span class="sd">    :param optimizer_class: (Type[th.optim.Optimizer]) The optimizer to use,</span>
-<span class="sd">        ``th.optim.Adam`` by default</span>
+<span class="sd">    :param optimizer_class: (Type[torch.optim.Optimizer]) The optimizer to use,</span>
+<span class="sd">        ``torch.optim.Adam`` by default</span>
 <span class="sd">    :param optimizer_kwargs: (Optional[Dict[str, Any]]) Additional keyword arguments,</span>
 <span class="sd">        excluding the learning rate, to pass to the optimizer</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">observation_space</span><span class="p">:</span> <span class="n">gym</span><span class="o">.</span><span class="n">spaces</span><span class="o">.</span><span class="n">Space</span><span class="p">,</span>
-                 <span class="n">action_space</span><span class="p">:</span> <span class="n">gym</span><span class="o">.</span><span class="n">spaces</span><span class="o">.</span><span class="n">Space</span><span class="p">,</span>
-                 <span class="n">lr_schedule</span><span class="p">:</span> <span class="n">Callable</span><span class="p">[[</span><span class="nb">float</span><span class="p">],</span> <span class="nb">float</span><span class="p">],</span>
-                 <span class="n">net_arch</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                 <span class="n">device</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">device</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;auto&#39;</span><span class="p">,</span>
-                 <span class="n">activation_fn</span><span class="p">:</span> <span class="n">Type</span><span class="p">[</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">]</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Tanh</span><span class="p">,</span>
-                 <span class="n">ortho_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-                 <span class="n">use_sde</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">log_std_init</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
-                 <span class="n">full_std</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-                 <span class="n">sde_net_arch</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                 <span class="n">use_expln</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">squash_output</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">features_extractor_class</span><span class="p">:</span> <span class="n">Type</span><span class="p">[</span><span class="n">BaseFeaturesExtractor</span><span class="p">]</span> <span class="o">=</span> <span class="n">FlattenExtractor</span><span class="p">,</span>
-                 <span class="n">features_extractor_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                 <span class="n">normalize_images</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-                 <span class="n">optimizer_class</span><span class="p">:</span> <span class="n">Type</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Optimizer</span><span class="p">]</span> <span class="o">=</span> <span class="n">th</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">,</span>
-                 <span class="n">optimizer_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-
-                 <span class="c1"># my additional arguments</span>
-                 <span class="n">num_partners</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
-                 <span class="n">partner_net_arch</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="c1"># net arch for each partner-specific module</span>
-                 <span class="n">baseline</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">nomain</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="p">):</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">observation_space</span><span class="p">:</span> <span class="n">gym</span><span class="o">.</span><span class="n">spaces</span><span class="o">.</span><span class="n">Space</span><span class="p">,</span>
+        <span class="n">action_space</span><span class="p">:</span> <span class="n">gym</span><span class="o">.</span><span class="n">spaces</span><span class="o">.</span><span class="n">Space</span><span class="p">,</span>
+        <span class="n">lr_schedule</span><span class="p">:</span> <span class="n">Callable</span><span class="p">[[</span><span class="nb">float</span><span class="p">],</span> <span class="nb">float</span><span class="p">],</span>
+        <span class="n">net_arch</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">activation_fn</span><span class="p">:</span> <span class="n">Type</span><span class="p">[</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">]</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Tanh</span><span class="p">,</span>
+        <span class="n">ortho_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">use_sde</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">log_std_init</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">full_std</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">sde_net_arch</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">use_expln</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">squash_output</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">features_extractor_class</span><span class="p">:</span> <span class="n">Type</span><span class="p">[</span>
+            <span class="n">BaseFeaturesExtractor</span>
+        <span class="p">]</span> <span class="o">=</span> <span class="n">FlattenExtractor</span><span class="p">,</span>
+        <span class="n">features_extractor_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">normalize_images</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">optimizer_class</span><span class="p">:</span> <span class="n">Type</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Optimizer</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">,</span>
+        <span class="n">optimizer_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="c1"># my additional arguments</span>
+        <span class="n">num_partners</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">partner_net_arch</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span>
+            <span class="n">List</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]]]</span>
+        <span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># net arch for each partner-specific module</span>
+        <span class="n">baseline</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">nomain</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">):</span>
 
         <span class="k">if</span> <span class="n">optimizer_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
             <span class="n">optimizer_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
             <span class="c1"># Small values to avoid NaN in Adam optimizer</span>
-            <span class="k">if</span> <span class="n">optimizer_class</span> <span class="o">==</span> <span class="n">th</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">:</span>
-                <span class="n">optimizer_kwargs</span><span class="p">[</span><span class="s1">&#39;eps&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="mf">1e-5</span>
-
-        <span class="nb">super</span><span class="p">(</span><span class="n">ModularPolicy</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">observation_space</span><span class="p">,</span>
-                                                <span class="n">action_space</span><span class="p">,</span>
-                                                <span class="n">features_extractor_class</span><span class="p">,</span>
-                                                <span class="n">features_extractor_kwargs</span><span class="p">,</span>
-                                                <span class="n">optimizer_class</span><span class="o">=</span><span class="n">optimizer_class</span><span class="p">,</span>
-                                                <span class="n">optimizer_kwargs</span><span class="o">=</span><span class="n">optimizer_kwargs</span><span class="p">,</span>
-                                                <span class="n">squash_output</span><span class="o">=</span><span class="n">squash_output</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">optimizer_class</span> <span class="o">==</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">:</span>
+                <span class="n">optimizer_kwargs</span><span class="p">[</span><span class="s2">&quot;eps&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="mf">1e-5</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">observation_space</span><span class="p">,</span>
+            <span class="n">action_space</span><span class="p">,</span>
+            <span class="n">features_extractor_class</span><span class="p">,</span>
+            <span class="n">features_extractor_kwargs</span><span class="p">,</span>
+            <span class="n">optimizer_class</span><span class="o">=</span><span class="n">optimizer_class</span><span class="p">,</span>
+            <span class="n">optimizer_kwargs</span><span class="o">=</span><span class="n">optimizer_kwargs</span><span class="p">,</span>
+            <span class="n">squash_output</span><span class="o">=</span><span class="n">squash_output</span><span class="p">,</span>
+        <span class="p">)</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">num_partners</span> <span class="o">=</span> <span class="n">num_partners</span>
-        <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;CUDA: &quot;</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">())</span>
+        <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;CUDA: &quot;</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">())</span>
 
         <span class="k">if</span> <span class="n">partner_net_arch</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
             <span class="k">if</span> <span class="n">features_extractor_class</span> <span class="o">==</span> <span class="n">FlattenExtractor</span><span class="p">:</span>
-                <span class="n">partner_net_arch</span> <span class="o">=</span> <span class="p">[</span><span class="nb">dict</span><span class="p">(</span><span class="n">pi</span><span class="o">=</span><span class="p">[</span><span class="mi">64</span><span class="p">,</span> <span class="mi">64</span><span class="p">],</span> <span class="n">vf</span><span class="o">=</span><span class="p">[</span><span class="mi">64</span><span class="p">,</span> <span class="mi">64</span><span class="p">])]</span>
+                <span class="n">partner_net_arch</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;pi&quot;</span><span class="p">:[</span><span class="mi">64</span><span class="p">,</span> <span class="mi">64</span><span class="p">],</span> <span class="s2">&quot;vf&quot;</span><span class="p">:[</span><span class="mi">64</span><span class="p">,</span> <span class="mi">64</span><span class="p">]}</span>
             <span class="k">else</span><span class="p">:</span>
                 <span class="n">partner_net_arch</span> <span class="o">=</span> <span class="p">[]</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">partner_net_arch</span> <span class="o">=</span> <span class="n">partner_net_arch</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">baseline</span> <span class="o">=</span> <span class="n">baseline</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">nomain</span> <span class="o">=</span> <span class="n">nomain</span>
 
-
         <span class="c1"># Default network architecture, from stable-baselines</span>
         <span class="k">if</span> <span class="n">net_arch</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
             <span class="k">if</span> <span class="n">features_extractor_class</span> <span class="o">==</span> <span class="n">FlattenExtractor</span><span class="p">:</span>
-                <span class="n">net_arch</span> <span class="o">=</span> <span class="p">[</span><span class="nb">dict</span><span class="p">(</span><span class="n">pi</span><span class="o">=</span><span class="p">[</span><span class="mi">64</span><span class="p">,</span> <span class="mi">64</span><span class="p">],</span> <span class="n">vf</span><span class="o">=</span><span class="p">[</span><span class="mi">64</span><span class="p">,</span> <span class="mi">64</span><span class="p">])]</span>
+                <span class="n">net_arch</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;pi&quot;</span><span class="p">:[</span><span class="mi">64</span><span class="p">,</span> <span class="mi">64</span><span class="p">],</span> <span class="s2">&quot;vf&quot;</span><span class="p">:[</span><span class="mi">64</span><span class="p">,</span> <span class="mi">64</span><span class="p">]}</span>
             <span class="k">else</span><span class="p">:</span>
                 <span class="n">net_arch</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">log_std</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">action_net</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span> <span class="o">=</span> <span class="kc">None</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">net_arch</span> <span class="o">=</span> <span class="n">net_arch</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">activation_fn</span> <span class="o">=</span> <span class="n">activation_fn</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">ortho_init</span> <span class="o">=</span> <span class="n">ortho_init</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">features_extractor</span> <span class="o">=</span> <span class="n">features_extractor_class</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">observation_space</span><span class="p">,</span>
-                                                           <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">features_extractor_kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">features_extractor</span> <span class="o">=</span> <span class="n">features_extractor_class</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">observation_space</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">features_extractor_kwargs</span>
+        <span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">features_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">features_extractor</span><span class="o">.</span><span class="n">features_dim</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">normalize_images</span> <span class="o">=</span> <span class="n">normalize_images</span>
@@ -206,10 +223,10 @@ <h1>Source code for pantheonrl.algos.modular.policies</h1><div class="highlight"
         <span class="c1"># Keyword arguments for gSDE distribution</span>
         <span class="k">if</span> <span class="n">use_sde</span><span class="p">:</span>
             <span class="n">dist_kwargs</span> <span class="o">=</span> <span class="p">{</span>
-                <span class="s1">&#39;full_std&#39;</span><span class="p">:</span> <span class="n">full_std</span><span class="p">,</span>
-                <span class="s1">&#39;squash_output&#39;</span><span class="p">:</span> <span class="n">squash_output</span><span class="p">,</span>
-                <span class="s1">&#39;use_expln&#39;</span><span class="p">:</span> <span class="n">use_expln</span><span class="p">,</span>
-                <span class="s1">&#39;learn_features&#39;</span><span class="p">:</span> <span class="n">sde_net_arch</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                <span class="s2">&quot;full_std&quot;</span><span class="p">:</span> <span class="n">full_std</span><span class="p">,</span>
+                <span class="s2">&quot;squash_output&quot;</span><span class="p">:</span> <span class="n">squash_output</span><span class="p">,</span>
+                <span class="s2">&quot;use_expln&quot;</span><span class="p">:</span> <span class="n">use_expln</span><span class="p">,</span>
+                <span class="s2">&quot;learn_features&quot;</span><span class="p">:</span> <span class="n">sde_net_arch</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span>
             <span class="p">}</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">sde_features_extractor</span> <span class="o">=</span> <span class="kc">None</span>
@@ -218,88 +235,103 @@ <h1>Source code for pantheonrl.algos.modular.policies</h1><div class="highlight"
         <span class="bp">self</span><span class="o">.</span><span class="n">dist_kwargs</span> <span class="o">=</span> <span class="n">dist_kwargs</span>
 
         <span class="c1"># Action distribution</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span> <span class="o">=</span> <span class="n">make_proba_distribution</span><span class="p">(</span><span class="n">action_space</span><span class="p">,</span> <span class="n">use_sde</span><span class="o">=</span><span class="n">use_sde</span><span class="p">,</span> <span class="n">dist_kwargs</span><span class="o">=</span><span class="n">dist_kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span> <span class="o">=</span> <span class="n">make_proba_distribution</span><span class="p">(</span>
+            <span class="n">action_space</span><span class="p">,</span> <span class="n">use_sde</span><span class="o">=</span><span class="n">use_sde</span><span class="p">,</span> <span class="n">dist_kwargs</span><span class="o">=</span><span class="n">dist_kwargs</span>
+        <span class="p">)</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">lr_schedule</span> <span class="o">=</span> <span class="n">lr_schedule</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">_build</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">lr_schedule</span><span class="p">)</span>
 
-    <span class="c1"># freeze / unfreeze the module networks</span>
+<div class="viewcode-block" id="ModularPolicy.set_freeze_module">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_module">[docs]</a>
     <span class="k">def</span> <span class="nf">set_freeze_module</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">freeze</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; freeze / unfreeze the module networks &quot;&quot;&quot;</span>
         <span class="k">for</span> <span class="n">param</span> <span class="ow">in</span> <span class="n">module</span><span class="o">.</span><span class="n">parameters</span><span class="p">():</span>
-            <span class="n">param</span><span class="o">.</span><span class="n">requires_grad</span> <span class="o">=</span> <span class="ow">not</span> <span class="n">freeze</span>
+            <span class="n">param</span><span class="o">.</span><span class="n">requires_grad</span> <span class="o">=</span> <span class="ow">not</span> <span class="n">freeze</span></div>
+
+
+<div class="viewcode-block" id="ModularPolicy.set_freeze_main">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_main">[docs]</a>
     <span class="k">def</span> <span class="nf">set_freeze_main</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">freeze</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; freeze / unfreeze main modules &quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">set_freeze_module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">,</span> <span class="n">freeze</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">set_freeze_module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_net</span><span class="p">,</span> <span class="n">freeze</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">set_freeze_module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">value_net</span><span class="p">,</span> <span class="n">freeze</span><span class="p">)</span>
-    <span class="k">def</span> <span class="nf">set_freeze_partner</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">freeze</span><span class="p">):</span>
-        <span class="k">for</span> <span class="n">partner_idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_partners</span><span class="p">):</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">set_freeze_module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">],</span> <span class="n">freeze</span><span class="p">)</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">set_freeze_module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">partner_action_net</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">],</span> <span class="n">freeze</span><span class="p">)</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">set_freeze_module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">partner_value_net</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">],</span> <span class="n">freeze</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">set_freeze_module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">value_net</span><span class="p">,</span> <span class="n">freeze</span><span class="p">)</span></div>
 
-    <span class="k">def</span> <span class="nf">_get_data</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]:</span>
-        <span class="n">data</span> <span class="o">=</span> <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">_get_data</span><span class="p">()</span>
 
-        <span class="n">default_none_kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dist_kwargs</span> <span class="ow">or</span> <span class="n">collections</span><span class="o">.</span><span class="n">defaultdict</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="kc">None</span><span class="p">)</span>
-
-        <span class="n">data</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="nb">dict</span><span class="p">(</span>
-            <span class="n">net_arch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">net_arch</span><span class="p">,</span>
-            <span class="n">activation_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">activation_fn</span><span class="p">,</span>
-            <span class="n">use_sde</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_sde</span><span class="p">,</span>
-            <span class="n">log_std_init</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">log_std_init</span><span class="p">,</span>
-            <span class="n">squash_output</span><span class="o">=</span><span class="n">default_none_kwargs</span><span class="p">[</span><span class="s1">&#39;squash_output&#39;</span><span class="p">],</span>
-            <span class="n">full_std</span><span class="o">=</span><span class="n">default_none_kwargs</span><span class="p">[</span><span class="s1">&#39;full_std&#39;</span><span class="p">],</span>
-            <span class="n">sde_net_arch</span><span class="o">=</span><span class="n">default_none_kwargs</span><span class="p">[</span><span class="s1">&#39;sde_net_arch&#39;</span><span class="p">],</span>
-            <span class="n">use_expln</span><span class="o">=</span><span class="n">default_none_kwargs</span><span class="p">[</span><span class="s1">&#39;use_expln&#39;</span><span class="p">],</span>
-            <span class="n">lr_schedule</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">_dummy_schedule</span><span class="p">,</span>  <span class="c1"># dummy lr schedule, not needed for loading policy alone</span>
-            <span class="n">ortho_init</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">ortho_init</span><span class="p">,</span>
-            <span class="n">optimizer_class</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer_class</span><span class="p">,</span>
-            <span class="n">optimizer_kwargs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">,</span>
-            <span class="n">features_extractor_class</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">features_extractor_class</span><span class="p">,</span>
-            <span class="n">features_extractor_kwargs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">features_extractor_kwargs</span>
-        <span class="p">))</span>
-        <span class="k">return</span> <span class="n">data</span>
-
-<div class="viewcode-block" id="ModularPolicy.reset_noise">
-<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.reset_noise">[docs]</a>
-    <span class="k">def</span> <span class="nf">reset_noise</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">n_envs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Sample new weights for the exploration matrix.</span>
-<span class="sd">        :param n_envs: (int)</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span>
-                          <span class="n">StateDependentNoiseDistribution</span><span class="p">),</span> <span class="s1">&#39;reset_noise() is only available when using gSDE&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">sample_weights</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">log_std</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="n">n_envs</span><span class="p">)</span></div>
-
-
-    <span class="k">def</span> <span class="nf">make_action_dist_net</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">latent_dim_pi</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">latent_sde_dim</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">):</span>
+<div class="viewcode-block" id="ModularPolicy.set_freeze_partner">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_partner">[docs]</a>
+    <span class="k">def</span> <span class="nf">set_freeze_partner</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">freeze</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; freeze / unfreeze partner modules &quot;&quot;&quot;</span>
+        <span class="k">for</span> <span class="n">partner_idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_partners</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">set_freeze_module</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">],</span> <span class="n">freeze</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">set_freeze_module</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">partner_action_net</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">],</span> <span class="n">freeze</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">set_freeze_module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">partner_value_net</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">],</span> <span class="n">freeze</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="ModularPolicy.make_action_dist_net">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.make_action_dist_net">[docs]</a>
+    <span class="k">def</span> <span class="nf">make_action_dist_net</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">latent_dim_pi</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">latent_sde_dim</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; Make the action distribution network &quot;&quot;&quot;</span>
         <span class="n">action_net</span><span class="p">,</span> <span class="n">log_std</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span>
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">DiagGaussianDistribution</span><span class="p">):</span>
-            <span class="n">action_net</span><span class="p">,</span> <span class="n">log_std</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution_net</span><span class="p">(</span><span class="n">latent_dim</span><span class="o">=</span><span class="n">latent_dim_pi</span><span class="p">,</span>
-                                                                                    <span class="n">log_std_init</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">log_std_init</span><span class="p">)</span>
+            <span class="n">action_net</span><span class="p">,</span> <span class="n">log_std</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution_net</span><span class="p">(</span>
+                <span class="n">latent_dim</span><span class="o">=</span><span class="n">latent_dim_pi</span><span class="p">,</span> <span class="n">log_std_init</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">log_std_init</span>
+            <span class="p">)</span>
         <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">StateDependentNoiseDistribution</span><span class="p">):</span>
-            <span class="n">latent_sde_dim</span> <span class="o">=</span> <span class="n">latent_dim_pi</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_net_arch</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">latent_sde_dim</span>
-            <span class="n">action_net</span><span class="p">,</span> <span class="n">log_std</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution_net</span><span class="p">(</span><span class="n">latent_dim</span><span class="o">=</span><span class="n">latent_dim_pi</span><span class="p">,</span>
-                                                                                    <span class="n">latent_sde_dim</span><span class="o">=</span><span class="n">latent_sde_dim</span><span class="p">,</span>
-                                                                                    <span class="n">log_std_init</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">log_std_init</span><span class="p">)</span>
+            <span class="n">latent_sde_dim</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">latent_dim_pi</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sde_net_arch</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">latent_sde_dim</span>
+            <span class="p">)</span>
+            <span class="n">action_net</span><span class="p">,</span> <span class="n">log_std</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution_net</span><span class="p">(</span>
+                <span class="n">latent_dim</span><span class="o">=</span><span class="n">latent_dim_pi</span><span class="p">,</span>
+                <span class="n">log_std_init</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">log_std_init</span><span class="p">,</span>
+            <span class="p">)</span>
         <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">CategoricalDistribution</span><span class="p">):</span>
-            <span class="n">action_net</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution_net</span><span class="p">(</span><span class="n">latent_dim</span><span class="o">=</span><span class="n">latent_dim_pi</span><span class="p">)</span>
+            <span class="n">action_net</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution_net</span><span class="p">(</span>
+                <span class="n">latent_dim</span><span class="o">=</span><span class="n">latent_dim_pi</span>
+            <span class="p">)</span>
         <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">MultiCategoricalDistribution</span><span class="p">):</span>
-            <span class="n">action_net</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution_net</span><span class="p">(</span><span class="n">latent_dim</span><span class="o">=</span><span class="n">latent_dim_pi</span><span class="p">)</span>
+            <span class="n">action_net</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution_net</span><span class="p">(</span>
+                <span class="n">latent_dim</span><span class="o">=</span><span class="n">latent_dim_pi</span>
+            <span class="p">)</span>
         <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">BernoulliDistribution</span><span class="p">):</span>
-            <span class="n">action_net</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution_net</span><span class="p">(</span><span class="n">latent_dim</span><span class="o">=</span><span class="n">latent_dim_pi</span><span class="p">)</span>
+            <span class="n">action_net</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution_net</span><span class="p">(</span>
+                <span class="n">latent_dim</span><span class="o">=</span><span class="n">latent_dim_pi</span>
+            <span class="p">)</span>
         <span class="k">else</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unsupported distribution &#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="si">}</span><span class="s2">&#39;.&quot;</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">action_net</span><span class="p">,</span> <span class="n">log_std</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Unsupported distribution &#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="si">}</span><span class="s2">&#39;.&quot;</span>
+            <span class="p">)</span>
+        <span class="k">return</span> <span class="n">action_net</span><span class="p">,</span> <span class="n">log_std</span></div>
 
+
+<div class="viewcode-block" id="ModularPolicy.build_mlp_action_value_net">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.build_mlp_action_value_net">[docs]</a>
     <span class="k">def</span> <span class="nf">build_mlp_action_value_net</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_dim</span><span class="p">,</span> <span class="n">net_arch</span><span class="p">):</span>
-        <span class="n">mlp_extractor</span> <span class="o">=</span> <span class="n">MlpExtractor</span><span class="p">(</span><span class="n">input_dim</span><span class="p">,</span> <span class="n">net_arch</span><span class="o">=</span><span class="n">net_arch</span><span class="p">,</span>
-                                          <span class="n">activation_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">activation_fn</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-        <span class="n">action_net</span><span class="p">,</span> <span class="n">log_std</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_action_dist_net</span><span class="p">(</span><span class="n">mlp_extractor</span><span class="o">.</span><span class="n">latent_dim_pi</span><span class="p">)</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; Build the action and value networks &quot;&quot;&quot;</span>
+        <span class="n">mlp_extractor</span> <span class="o">=</span> <span class="n">MlpExtractor</span><span class="p">(</span>
+            <span class="n">input_dim</span><span class="p">,</span>
+            <span class="n">net_arch</span><span class="o">=</span><span class="n">net_arch</span><span class="p">,</span>
+            <span class="n">activation_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">activation_fn</span><span class="p">,</span>
+            <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">action_net</span><span class="p">,</span> <span class="n">log_std</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_action_dist_net</span><span class="p">(</span>
+            <span class="n">mlp_extractor</span><span class="o">.</span><span class="n">latent_dim_pi</span>
+        <span class="p">)</span>
         <span class="n">value_net</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">mlp_extractor</span><span class="o">.</span><span class="n">latent_dim_vf</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">mlp_extractor</span><span class="p">,</span> <span class="n">action_net</span><span class="p">,</span> <span class="n">log_std</span><span class="p">,</span> <span class="n">value_net</span>
+        <span class="k">return</span> <span class="n">mlp_extractor</span><span class="p">,</span> <span class="n">action_net</span><span class="p">,</span> <span class="n">log_std</span><span class="p">,</span> <span class="n">value_net</span></div>
 
+
+<div class="viewcode-block" id="ModularPolicy.do_init_weights">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.do_init_weights">[docs]</a>
     <span class="k">def</span> <span class="nf">do_init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">init_main</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_partner</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; Initialize the weights &quot;&quot;&quot;</span>
         <span class="c1"># Values from stable-baselines.</span>
         <span class="c1"># feature_extractor/mlp values are</span>
         <span class="c1"># originally from openai/baselines (default gains/init_scales).</span>
@@ -319,7 +351,8 @@ <h1>Source code for pantheonrl.algos.modular.policies</h1><div class="highlight"
                 <span class="n">module_gains</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">partner_action_net</span><span class="p">[</span><span class="n">i</span><span class="p">]]</span> <span class="o">=</span> <span class="mf">0.01</span>
                 <span class="n">module_gains</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">partner_value_net</span><span class="p">[</span><span class="n">i</span><span class="p">]]</span> <span class="o">=</span> <span class="mi">1</span>
         <span class="k">for</span> <span class="n">module</span><span class="p">,</span> <span class="n">gain</span> <span class="ow">in</span> <span class="n">module_gains</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-            <span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="n">partial</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">init_weights</span><span class="p">,</span> <span class="n">gain</span><span class="o">=</span><span class="n">gain</span><span class="p">))</span>
+            <span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="n">partial</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">init_weights</span><span class="p">,</span> <span class="n">gain</span><span class="o">=</span><span class="n">gain</span><span class="p">))</span></div>
+
 
     <span class="k">def</span> <span class="nf">_build</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lr_schedule</span><span class="p">:</span> <span class="n">Callable</span><span class="p">[[</span><span class="nb">float</span><span class="p">],</span> <span class="nb">float</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -331,58 +364,98 @@ <h1>Source code for pantheonrl.algos.modular.policies</h1><div class="highlight"
         <span class="c1">#       net_arch here is an empty list and mlp_extractor does not</span>
         <span class="c1">#       really contain any layers (acts like an identity module).</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_net</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">log_std</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_mlp_action_value_net</span><span class="p">(</span><span class="n">input_dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">features_dim</span><span class="p">,</span> <span class="n">net_arch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">net_arch</span><span class="p">)</span>
-
-        <span class="n">partner_builds</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">build_mlp_action_value_net</span><span class="p">(</span><span class="n">input_dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="o">.</span><span class="n">latent_dim_pi</span><span class="p">,</span> <span class="n">net_arch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">partner_net_arch</span><span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_partners</span><span class="p">)]</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">baseline</span><span class="p">:</span> <span class="c1"># use the same partner module for all partners</span>
+        <span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">action_net</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">log_std</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span><span class="p">,</span>
+        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_mlp_action_value_net</span><span class="p">(</span>
+            <span class="n">input_dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">features_dim</span><span class="p">,</span> <span class="n">net_arch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">net_arch</span>
+        <span class="p">)</span>
+
+        <span class="n">partner_builds</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">build_mlp_action_value_net</span><span class="p">(</span>
+                <span class="n">input_dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="o">.</span><span class="n">latent_dim_pi</span><span class="p">,</span>
+                <span class="n">net_arch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">partner_net_arch</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_partners</span><span class="p">)</span>
+        <span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">baseline</span><span class="p">:</span>  <span class="c1"># use the same partner module for all partners</span>
             <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Baseline architecture: using the same partner module.&quot;</span><span class="p">)</span>
             <span class="n">partner_builds</span> <span class="o">=</span> <span class="p">[</span><span class="n">partner_builds</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_partners</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_action_net</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_log_std</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_value_net</span> <span class="o">=</span> <span class="nb">zip</span><span class="p">(</span><span class="o">*</span><span class="n">partner_builds</span><span class="p">)</span>
+        <span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">partner_action_net</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">partner_log_std</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">partner_value_net</span><span class="p">,</span>
+        <span class="p">)</span> <span class="o">=</span> <span class="nb">zip</span><span class="p">(</span><span class="o">*</span><span class="n">partner_builds</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">ModuleList</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">partner_action_net</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">ModuleList</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">partner_action_net</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">partner_value_net</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">ModuleList</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">partner_value_net</span><span class="p">)</span>
 
         <span class="c1"># Setup optimizer with initial learning rate</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_class</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">lr</span><span class="o">=</span><span class="n">lr_schedule</span><span class="p">(</span><span class="mi">1</span><span class="p">),</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_class</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">lr</span><span class="o">=</span><span class="n">lr_schedule</span><span class="p">(</span><span class="mi">1</span><span class="p">),</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer_kwargs</span>
+        <span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">do_init_weights</span><span class="p">(</span><span class="n">init_main</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_partner</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
 
+<div class="viewcode-block" id="ModularPolicy.overwrite_main">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.overwrite_main">[docs]</a>
     <span class="k">def</span> <span class="nf">overwrite_main</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">other</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_net</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">log_std</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span> <span class="o">=</span> <span class="n">other</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">,</span> <span class="n">other</span><span class="o">.</span><span class="n">action_net</span><span class="p">,</span> <span class="n">other</span><span class="o">.</span><span class="n">log_std</span><span class="p">,</span> <span class="n">other</span><span class="o">.</span><span class="n">value_net</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_class</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">lr</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lr_schedule</span><span class="p">(</span><span class="mi">1</span><span class="p">),</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; Overwrite the main weights &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_net</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">log_std</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">other</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">,</span>
+            <span class="n">other</span><span class="o">.</span><span class="n">action_net</span><span class="p">,</span>
+            <span class="n">other</span><span class="o">.</span><span class="n">log_std</span><span class="p">,</span>
+            <span class="n">other</span><span class="o">.</span><span class="n">value_net</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_class</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">lr</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lr_schedule</span><span class="p">(</span><span class="mi">1</span><span class="p">),</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer_kwargs</span>
+        <span class="p">)</span></div>
+
 
 <div class="viewcode-block" id="ModularPolicy.forward">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.forward">[docs]</a>
-    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
-                <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
-                <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Forward pass in all the networks (actor and critic)</span>
-<span class="sd">        :param obs: (th.Tensor) Observation</span>
+<span class="sd">        :param obs: (torch.Tensor) Observation</span>
 <span class="sd">        :param deterministic: (bool) Whether to sample or use deterministic actions</span>
-<span class="sd">        :return: (Tuple[th.Tensor, th.Tensor, th.Tensor]) action, value and log probability of the action</span>
+<span class="sd">        :return: (Tuple[torch.Tensor, torch.Tensor, torch.Tensor]) action, value</span>
+<span class="sd">            and log probability of the action</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_vf</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_latent</span><span class="p">(</span><span class="n">obs</span><span class="o">=</span><span class="n">obs</span><span class="p">)</span>
-        <span class="n">partner_latent_pi</span><span class="p">,</span> <span class="n">partner_latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">](</span><span class="n">latent_pi</span><span class="p">)</span>
+        <span class="n">partner_latent_pi</span><span class="p">,</span> <span class="n">partner_latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span><span class="p">[</span>
+            <span class="n">partner_idx</span>
+        <span class="p">](</span><span class="n">latent_pi</span><span class="p">)</span>
 
-        <span class="n">distribution</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_action_dist_from_latent</span><span class="p">(</span><span class="n">latent_pi</span><span class="p">,</span> <span class="n">partner_latent_pi</span><span class="p">,</span> <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span><span class="p">)</span>
+        <span class="n">distribution</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_action_dist_from_latent</span><span class="p">(</span>
+            <span class="n">latent_pi</span><span class="p">,</span> <span class="n">partner_latent_pi</span><span class="p">,</span> <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span>
+        <span class="p">)</span>
         <span class="n">actions</span> <span class="o">=</span> <span class="n">distribution</span><span class="o">.</span><span class="n">get_actions</span><span class="p">(</span><span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
         <span class="n">log_prob</span> <span class="o">=</span> <span class="n">distribution</span><span class="o">.</span><span class="n">log_prob</span><span class="p">(</span><span class="n">actions</span><span class="p">)</span>
-        <span class="n">values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span><span class="p">(</span><span class="n">latent_vf</span><span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_value_net</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">](</span><span class="n">partner_latent_vf</span><span class="p">)</span>
+        <span class="n">values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span><span class="p">(</span><span class="n">latent_vf</span><span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_value_net</span><span class="p">[</span>
+            <span class="n">partner_idx</span>
+        <span class="p">](</span><span class="n">partner_latent_vf</span><span class="p">)</span>
 
         <span class="k">return</span> <span class="n">actions</span><span class="p">,</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_prob</span></div>
 
 
-    <span class="k">def</span> <span class="nf">_get_latent</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+    <span class="k">def</span> <span class="nf">_get_latent</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Get the latent code (i.e., activations of the last layer of each network)</span>
 <span class="sd">        for the different networks.</span>
-<span class="sd">        :param obs: (th.Tensor) Observation</span>
-<span class="sd">        :return: (Tuple[th.Tensor, th.Tensor, th.Tensor]) Latent codes</span>
+<span class="sd">        :param obs: (torch.Tensor) Observation</span>
+<span class="sd">        :return: (Tuple[torch.Tensor, torch.Tensor, torch.Tensor]) Latent codes</span>
 <span class="sd">            for the actor, the value function and for gSDE function</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="c1"># Preprocess the observation if needed</span>
-        <span class="n">features</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">extract_features</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
+        <span class="n">features</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">extract_features</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">features_extractor</span><span class="p">)</span>
         <span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp_extractor</span><span class="p">(</span><span class="n">features</span><span class="p">)</span>
 
         <span class="c1"># Features for sde</span>
@@ -392,95 +465,145 @@ <h1>Source code for pantheonrl.algos.modular.policies</h1><div class="highlight"
 
         <span class="k">return</span> <span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_vf</span><span class="p">,</span> <span class="n">latent_sde</span>
 
-    <span class="k">def</span> <span class="nf">_get_action_dist_from_latent</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">latent_pi</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
-                                     <span class="n">partner_latent_pi</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
-                                     <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
-                                     <span class="n">latent_sde</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                                     <span class="n">action_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Distribution</span><span class="p">:</span>
+    <span class="k">def</span> <span class="nf">_get_action_dist_from_latent</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">latent_pi</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
+        <span class="n">partner_latent_pi</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
+        <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">latent_sde</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">action_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Distribution</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Retrieve action distribution given the latent codes.</span>
-<span class="sd">        :param latent_pi: (th.Tensor) Latent code for the actor</span>
-<span class="sd">        :param latent_sde: (Optional[th.Tensor]) Latent code for the gSDE exploration function</span>
+<span class="sd">        :param latent_pi: (torch.Tensor) Latent code for the actor</span>
+<span class="sd">        :param latent_sde: (Optional[torch.Tensor]) Latent code for the gSDE exploration function</span>
 <span class="sd">        :return: (Distribution) Action distribution</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="n">main_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_net</span><span class="p">(</span><span class="n">latent_pi</span><span class="p">)</span>
-        <span class="n">partner_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_action_net</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">](</span><span class="n">partner_latent_pi</span><span class="p">)</span>
+        <span class="n">partner_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_action_net</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">](</span>
+            <span class="n">partner_latent_pi</span>
+        <span class="p">)</span>
 
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">nomain</span><span class="p">:</span>
             <span class="n">mean_actions</span> <span class="o">=</span> <span class="n">partner_logits</span>
         <span class="k">else</span><span class="p">:</span>
             <span class="n">mean_actions</span> <span class="o">=</span> <span class="n">main_logits</span> <span class="o">+</span> <span class="n">partner_logits</span>
-        
+
         <span class="n">large_exponent</span> <span class="o">=</span> <span class="mi">30</span>
         <span class="k">if</span> <span class="n">action_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
             <span class="n">action_mask</span> <span class="o">=</span> <span class="n">action_mask</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">mean_actions</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-            <span class="n">mean_actions</span> <span class="o">=</span> <span class="n">mean_actions</span> <span class="o">-</span> <span class="n">large_exponent</span><span class="o">*</span><span class="p">(</span><span class="o">~</span><span class="n">action_mask</span><span class="p">)</span>
-        <span class="n">th</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="n">mean_actions</span><span class="p">,</span> <span class="nb">min</span><span class="o">=-</span><span class="mi">1</span><span class="o">*</span><span class="n">large_exponent</span><span class="p">)</span>
+            <span class="n">mean_actions</span> <span class="o">=</span> <span class="n">mean_actions</span> <span class="o">-</span> <span class="n">large_exponent</span> <span class="o">*</span> <span class="p">(</span><span class="o">~</span><span class="n">action_mask</span><span class="p">)</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="n">mean_actions</span><span class="p">,</span> <span class="nb">min</span><span class="o">=-</span><span class="mi">1</span> <span class="o">*</span> <span class="n">large_exponent</span><span class="p">)</span>
 
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">DiagGaussianDistribution</span><span class="p">):</span>
             <span class="n">log_std</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">log_std</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_log_std</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">]</span>
             <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution</span><span class="p">(</span><span class="n">mean_actions</span><span class="p">,</span> <span class="n">log_std</span><span class="p">)</span>
-        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">CategoricalDistribution</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">CategoricalDistribution</span><span class="p">):</span>
             <span class="c1"># Here mean_actions are the logits before the softmax</span>
-            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution</span><span class="p">(</span><span class="n">action_logits</span><span class="o">=</span><span class="n">mean_actions</span><span class="p">)</span>
-        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">MultiCategoricalDistribution</span><span class="p">):</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution</span><span class="p">(</span>
+                <span class="n">mean_actions</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">MultiCategoricalDistribution</span><span class="p">):</span>
             <span class="c1"># Here mean_actions are the flattened logits</span>
-            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution</span><span class="p">(</span><span class="n">action_logits</span><span class="o">=</span><span class="n">mean_actions</span><span class="p">)</span>
-        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">BernoulliDistribution</span><span class="p">):</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution</span><span class="p">(</span>
+                <span class="n">mean_actions</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">BernoulliDistribution</span><span class="p">):</span>
             <span class="c1"># Here mean_actions are the logits (before rounding to get the binary actions)</span>
-            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution</span><span class="p">(</span><span class="n">action_logits</span><span class="o">=</span><span class="n">mean_actions</span><span class="p">)</span>
-        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">StateDependentNoiseDistribution</span><span class="p">):</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution</span><span class="p">(</span>
+                <span class="n">mean_actions</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="p">,</span> <span class="n">StateDependentNoiseDistribution</span><span class="p">):</span>
             <span class="n">log_std</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">log_std</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_log_std</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">]</span>
-            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution</span><span class="p">(</span><span class="n">mean_actions</span><span class="p">,</span> <span class="n">log_std</span><span class="p">,</span> <span class="n">latent_sde</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;Invalid action distribution&#39;</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">_predict</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">observation</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_dist</span><span class="o">.</span><span class="n">proba_distribution</span><span class="p">(</span>
+                <span class="n">mean_actions</span><span class="o">=</span><span class="n">mean_actions</span><span class="p">,</span>
+                <span class="n">log_std</span><span class="o">=</span><span class="n">log_std</span><span class="p">,</span>
+                <span class="n">latent_sde</span><span class="o">=</span><span class="n">latent_sde</span>
+            <span class="p">)</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Invalid action distribution&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_predict</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">observation</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Get the action according to the policy for a given observation.</span>
-<span class="sd">        :param observation: (th.Tensor)</span>
+<span class="sd">        :param observation: (torch.Tensor)</span>
 <span class="sd">        :param deterministic: (bool) Whether to use stochastic or deterministic actions</span>
-<span class="sd">        :return: (th.Tensor) Taken action according to the policy</span>
+<span class="sd">        :return: (torch.Tensor) Taken action according to the policy</span>
 <span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">actions</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">forward</span><span class="p">(</span><span class="n">obs</span><span class="o">=</span><span class="n">observation</span><span class="p">,</span> <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+        <span class="n">actions</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">forward</span><span class="p">(</span>
+            <span class="n">obs</span><span class="o">=</span><span class="n">observation</span><span class="p">,</span>
+            <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
         <span class="k">return</span> <span class="n">actions</span>
 
 <div class="viewcode-block" id="ModularPolicy.evaluate_actions">
 <a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.evaluate_actions">[docs]</a>
-    <span class="k">def</span> <span class="nf">evaluate_actions</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
-                         <span class="n">actions</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
-                         <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
-                         <span class="n">action_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+    <span class="k">def</span> <span class="nf">evaluate_actions</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">obs</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
+        <span class="n">actions</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
+        <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">action_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Evaluate actions according to the current policy,</span>
 <span class="sd">        given the observations.</span>
-<span class="sd">        :param obs: (th.Tensor)</span>
-<span class="sd">        :param actions: (th.Tensor)</span>
-<span class="sd">        :return: (th.Tensor, th.Tensor, th.Tensor) estimated value, log likelihood of taking those actions</span>
-<span class="sd">            and entropy of the action distribution.</span>
+<span class="sd">        :param obs: (torch.Tensor)</span>
+<span class="sd">        :param actions: (torch.Tensor)</span>
+<span class="sd">        :return: (torch.Tensor, torch.Tensor, torch.Tensor) estimated value, log likelihood of</span>
+<span class="sd">            taking those actions and entropy of the action distribution.</span>
 <span class="sd">        &quot;&quot;&quot;</span>
 
         <span class="n">latent_pi</span><span class="p">,</span> <span class="n">latent_vf</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_latent</span><span class="p">(</span><span class="n">obs</span><span class="o">=</span><span class="n">obs</span><span class="p">)</span>
-        <span class="n">partner_latent_pi</span><span class="p">,</span> <span class="n">partner_latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">](</span><span class="n">latent_pi</span><span class="p">)</span>
-
-        <span class="n">distribution</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_action_dist_from_latent</span><span class="p">(</span><span class="n">latent_pi</span><span class="p">,</span> <span class="n">partner_latent_pi</span><span class="p">,</span> <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span><span class="p">,</span> <span class="n">action_mask</span><span class="o">=</span><span class="n">action_mask</span><span class="p">)</span>
+        <span class="n">partner_latent_pi</span><span class="p">,</span> <span class="n">partner_latent_vf</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span><span class="p">[</span>
+            <span class="n">partner_idx</span>
+        <span class="p">](</span><span class="n">latent_pi</span><span class="p">)</span>
+
+        <span class="n">distribution</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_action_dist_from_latent</span><span class="p">(</span>
+            <span class="n">latent_pi</span><span class="p">,</span>
+            <span class="n">partner_latent_pi</span><span class="p">,</span>
+            <span class="n">partner_idx</span><span class="o">=</span><span class="n">partner_idx</span><span class="p">,</span>
+            <span class="n">action_mask</span><span class="o">=</span><span class="n">action_mask</span><span class="p">,</span>
+        <span class="p">)</span>
         <span class="n">log_prob</span> <span class="o">=</span> <span class="n">distribution</span><span class="o">.</span><span class="n">log_prob</span><span class="p">(</span><span class="n">actions</span><span class="p">)</span>
-        <span class="n">values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span><span class="p">(</span><span class="n">latent_vf</span><span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_value_net</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">](</span><span class="n">partner_latent_vf</span><span class="p">)</span>
+        <span class="n">values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_net</span><span class="p">(</span><span class="n">latent_vf</span><span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_value_net</span><span class="p">[</span>
+            <span class="n">partner_idx</span>
+        <span class="p">](</span><span class="n">partner_latent_vf</span><span class="p">)</span>
         <span class="k">return</span> <span class="n">values</span><span class="p">,</span> <span class="n">log_prob</span><span class="p">,</span> <span class="n">distribution</span><span class="o">.</span><span class="n">entropy</span><span class="p">()</span></div>
 
 
-    <span class="k">def</span> <span class="nf">get_action_logits_from_obs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">obs</span><span class="p">:</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">action_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">th</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<div class="viewcode-block" id="ModularPolicy.get_action_logits_from_obs">
+<a class="viewcode-back" href="../../../../_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.get_action_logits_from_obs">[docs]</a>
+    <span class="k">def</span> <span class="nf">get_action_logits_from_obs</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">obs</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
+        <span class="n">partner_idx</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">action_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot; Get the action logits from the observation &quot;&quot;&quot;</span>
         <span class="n">latent_pi</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_latent</span><span class="p">(</span><span class="n">obs</span><span class="o">=</span><span class="n">obs</span><span class="p">)</span>
-        <span class="n">partner_latent_pi</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">](</span><span class="n">latent_pi</span><span class="p">)</span>
+        <span class="n">partner_latent_pi</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_mlp_extractor</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">](</span>
+            <span class="n">latent_pi</span>
+        <span class="p">)</span>
 
         <span class="n">main_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">action_net</span><span class="p">(</span><span class="n">latent_pi</span><span class="p">)</span>
-        <span class="n">partner_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_action_net</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">](</span><span class="n">partner_latent_pi</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="n">action_mask</span><span class="p">:</span> 
-            <span class="n">main_logits</span> <span class="o">=</span> <span class="n">main_logits</span> <span class="o">*</span> <span class="n">action_mask</span>   <span class="c1"># set masked out options to 0</span>
+        <span class="n">partner_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">partner_action_net</span><span class="p">[</span><span class="n">partner_idx</span><span class="p">](</span>
+            <span class="n">partner_latent_pi</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">action_mask</span><span class="p">:</span>
+            <span class="n">main_logits</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">main_logits</span> <span class="o">*</span> <span class="n">action_mask</span>
+            <span class="p">)</span>  <span class="c1"># set masked out options to 0</span>
             <span class="n">partner_logits</span> <span class="o">=</span> <span class="n">partner_logits</span> <span class="o">*</span> <span class="n">action_mask</span>
 
         <span class="k">return</span> <span class="n">main_logits</span><span class="p">,</span> <span class="n">partner_logits</span></div>
+</div>
 
 </pre></div>
 
diff --git a/docs_build/build/html/_modules/pantheonrl/common/multiagentenv.html b/docs_build/build/html/_modules/pantheonrl/common/multiagentenv.html
index c84deef..c19a4fb 100644
--- a/docs_build/build/html/_modules/pantheonrl/common/multiagentenv.html
+++ b/docs_build/build/html/_modules/pantheonrl/common/multiagentenv.html
@@ -464,6 +464,12 @@ <h1>Source code for pantheonrl.common.multiagentenv</h1><div class="highlight"><
         <span class="p">]</span></div>
 
 
+<div class="viewcode-block" id="MultiAgentEnv.resample_null">
+<a class="viewcode-back" href="../../../_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.html#pantheonrl.common.multiagentenv.MultiAgentEnv.resample_null">[docs]</a>
+    <span class="k">def</span> <span class="nf">resample_null</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Do not resample each partner policy&quot;&quot;&quot;</span></div>
+
+
 <div class="viewcode-block" id="MultiAgentEnv.resample_round_robin">
 <a class="viewcode-back" href="../../../_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.html#pantheonrl.common.multiagentenv.MultiAgentEnv.resample_round_robin">[docs]</a>
     <span class="k">def</span> <span class="nf">resample_round_robin</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
@@ -483,7 +489,7 @@ <h1>Source code for pantheonrl.common.multiagentenv</h1><div class="highlight"><
 <span class="sd">        Set the resample_partner method to round &quot;robin&quot; or &quot;random&quot;</span>
 
 <span class="sd">        :param resample_policy: The new resampling policy to use.</span>
-<span class="sd">          Valid values are: &quot;default&quot;, &quot;robin&quot;, &quot;random&quot;</span>
+<span class="sd">          Valid values are: &quot;default&quot;, &quot;robin&quot;, &quot;random&quot;, or &quot;null&quot;</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">if</span> <span class="n">resample_policy</span> <span class="o">==</span> <span class="s2">&quot;default&quot;</span><span class="p">:</span>
             <span class="n">resample_policy</span> <span class="o">=</span> <span class="s2">&quot;robin&quot;</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_players</span> <span class="o">==</span> <span class="mi">2</span> <span class="k">else</span> <span class="s2">&quot;random&quot;</span>
@@ -497,6 +503,8 @@ <h1>Source code for pantheonrl.common.multiagentenv</h1><div class="highlight"><
             <span class="bp">self</span><span class="o">.</span><span class="n">resample_partner</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resample_round_robin</span>
         <span class="k">elif</span> <span class="n">resample_policy</span> <span class="o">==</span> <span class="s2">&quot;random&quot;</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">resample_partner</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resample_random</span>
+        <span class="k">elif</span> <span class="n">resample_policy</span> <span class="o">==</span> <span class="s2">&quot;null&quot;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">resample_partner</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resample_null</span>
         <span class="k">else</span><span class="p">:</span>
             <span class="k">raise</span> <span class="n">PlayerException</span><span class="p">(</span>
                 <span class="sa">f</span><span class="s2">&quot;Invalid resampling policy: </span><span class="si">{</span><span class="n">resample_policy</span><span class="si">}</span><span class="s2">&quot;</span>
diff --git a/docs_build/build/html/_modules/pantheonrl/common/trajsaver.html b/docs_build/build/html/_modules/pantheonrl/common/trajsaver.html
index 3952222..9354968 100644
--- a/docs_build/build/html/_modules/pantheonrl/common/trajsaver.html
+++ b/docs_build/build/html/_modules/pantheonrl/common/trajsaver.html
@@ -106,7 +106,7 @@ <h1>Source code for pantheonrl.common.trajsaver</h1><div class="highlight"><pre>
 <span class="sd">    Use this as the `collate_fn` argument to `DataLoader` if using an instance</span>
 <span class="sd">    of `TransitionsMinimal` as the `dataset` argument.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">batch_no_infos</span> <span class="o">=</span> <span class="p">[</span><span class="n">sample</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">for</span> <span class="n">sample</span> <span class="ow">in</span> <span class="n">batch</span><span class="p">]</span>
+    <span class="n">batch_no_infos</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">batch</span><span class="p">)</span>
 
     <span class="n">result</span> <span class="o">=</span> <span class="n">default_collate</span><span class="p">(</span><span class="n">batch_no_infos</span><span class="p">)</span>
     <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">result</span><span class="p">,</span> <span class="nb">dict</span><span class="p">)</span>
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.rst.txt
index 85d422e..1296b39 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.algos.adap.adap\_learn.ADAP
+﻿pantheonrl.algos.adap.adap\_learn.ADAP
 ======================================
 
 .. currentmodule:: pantheonrl.algos.adap.adap_learn
@@ -40,7 +40,6 @@ pantheonrl.algos.adap.adap\_learn.ADAP
    
       ~ADAP.logger
       ~ADAP.policy_aliases
-      ~ADAP.full_obs_shape
       ~ADAP.rollout_buffer
       ~ADAP.policy
       ~ADAP.observation_space
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.policies.MultModel.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.policies.MultModel.rst.txt
index 1fa8ce4..f619fe7 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.policies.MultModel.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.policies.MultModel.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.algos.adap.policies.MultModel
+﻿pantheonrl.algos.adap.policies.MultModel
 ========================================
 
 .. currentmodule:: pantheonrl.algos.adap.policies
@@ -32,8 +32,6 @@ pantheonrl.algos.adap.policies.MultModel
       ~MultModel.forward_critic
       ~MultModel.get_buffer
       ~MultModel.get_extra_state
-      ~MultModel.get_input_size_excluding_ctx
-      ~MultModel.get_input_size_inluding_ctx
       ~MultModel.get_parameter
       ~MultModel.get_submodule
       ~MultModel.half
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.rst.txt
index db95f21..778f650 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.rst.txt
@@ -1,6 +1,6 @@
-pantheonrl.algos.adap.util.get\_L2\_sphere
+pantheonrl.algos.adap.util.get\_l2\_sphere
 ==========================================
 
 .. currentmodule:: pantheonrl.algos.adap.util
 
-.. autofunction:: get_L2_sphere
\ No newline at end of file
+.. autofunction:: get_l2_sphere
\ No newline at end of file
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.util.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.util.rst.txt
index 7f1ccf1..2d6ad59 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.util.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.adap.util.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.algos.adap.util
+﻿pantheonrl.algos.adap.util
 ==========================
 
 
@@ -19,9 +19,9 @@ pantheonrl.algos.adap.util
       :toctree:
       :nosignatures:
    
-      get_L2_sphere
       get_categorical
       get_context_kl_loss
+      get_l2_sphere
       get_natural_number
       get_positive_square
       get_unit_square
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.BCShell.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.BCShell.rst.txt
index 440e2e0..5af1b7c 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.BCShell.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.BCShell.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.algos.bc.BCShell
+﻿pantheonrl.algos.bc.BCShell
 ===========================
 
 .. currentmodule:: pantheonrl.algos.bc
@@ -16,9 +16,17 @@ pantheonrl.algos.bc.BCShell
    .. autosummary::
       :nosignatures:
    
+      ~BCShell.get_policy
+      ~BCShell.set_policy
    
    
 
    
    
+   .. rubric:: Attributes
+
+   .. autosummary::
+   
+      ~BCShell.policy
+   
    
\ No newline at end of file
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.rst.txt
index 7a3363e..cfe941b 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.algos.bc.ConstantLRSchedule
+﻿pantheonrl.algos.bc.ConstantLRSchedule
 ======================================
 
 .. currentmodule:: pantheonrl.algos.bc
@@ -16,6 +16,7 @@ pantheonrl.algos.bc.ConstantLRSchedule
    .. autosummary::
       :nosignatures:
    
+      ~ConstantLRSchedule.set_lr
    
    
 
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.rst.txt
index 771fb84..31294a3 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress
+﻿pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress
 ====================================================
 
 .. currentmodule:: pantheonrl.algos.bc
@@ -16,6 +16,7 @@ pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress
    .. autosummary::
       :nosignatures:
    
+      ~EpochOrBatchIteratorWithProgress.set_data_loader
    
    
 
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.rst.txt
index a923d24..265a0fb 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.algos.modular.policies.ModularPolicy
+﻿pantheonrl.algos.modular.policies.ModularPolicy
 ===============================================
 
 .. currentmodule:: pantheonrl.algos.modular.policies
@@ -67,7 +67,6 @@ pantheonrl.algos.modular.policies.ModularPolicy
       ~ModularPolicy.register_parameter
       ~ModularPolicy.register_state_dict_pre_hook
       ~ModularPolicy.requires_grad_
-      ~ModularPolicy.reset_noise
       ~ModularPolicy.save
       ~ModularPolicy.scale_action
       ~ModularPolicy.set_extra_state
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.rst.txt
index 98e1e45..8a5fb62 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.common.multiagentenv.MultiAgentEnv
+﻿pantheonrl.common.multiagentenv.MultiAgentEnv
 =============================================
 
 .. currentmodule:: pantheonrl.common.multiagentenv
@@ -25,6 +25,7 @@ pantheonrl.common.multiagentenv.MultiAgentEnv
       ~MultiAgentEnv.n_reset
       ~MultiAgentEnv.n_step
       ~MultiAgentEnv.render
+      ~MultiAgentEnv.resample_null
       ~MultiAgentEnv.resample_random
       ~MultiAgentEnv.resample_round_robin
       ~MultiAgentEnv.reset
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.rst.txt
index 4b4718a..d3edfc2 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.common.multiagentenv.SimultaneousEnv
+﻿pantheonrl.common.multiagentenv.SimultaneousEnv
 ===============================================
 
 .. currentmodule:: pantheonrl.common.multiagentenv
@@ -27,6 +27,7 @@ pantheonrl.common.multiagentenv.SimultaneousEnv
       ~SimultaneousEnv.n_reset
       ~SimultaneousEnv.n_step
       ~SimultaneousEnv.render
+      ~SimultaneousEnv.resample_null
       ~SimultaneousEnv.resample_random
       ~SimultaneousEnv.resample_round_robin
       ~SimultaneousEnv.reset
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.rst.txt
index 73d80b8..154abad 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.common.multiagentenv.TurnBasedEnv
+﻿pantheonrl.common.multiagentenv.TurnBasedEnv
 ============================================
 
 .. currentmodule:: pantheonrl.common.multiagentenv
@@ -28,6 +28,7 @@ pantheonrl.common.multiagentenv.TurnBasedEnv
       ~TurnBasedEnv.n_reset
       ~TurnBasedEnv.n_step
       ~TurnBasedEnv.render
+      ~TurnBasedEnv.resample_null
       ~TurnBasedEnv.resample_random
       ~TurnBasedEnv.resample_round_robin
       ~TurnBasedEnv.reset
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.rst.txt
index 675e405..a7a1827 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.common.wrappers.SimultaneousFrameStack
+﻿pantheonrl.common.wrappers.SimultaneousFrameStack
 =================================================
 
 .. currentmodule:: pantheonrl.common.wrappers
@@ -27,6 +27,7 @@ pantheonrl.common.wrappers.SimultaneousFrameStack
       ~SimultaneousFrameStack.n_reset
       ~SimultaneousFrameStack.n_step
       ~SimultaneousFrameStack.render
+      ~SimultaneousFrameStack.resample_null
       ~SimultaneousFrameStack.resample_random
       ~SimultaneousFrameStack.resample_round_robin
       ~SimultaneousFrameStack.reset
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.rst.txt
index bcf183a..97a6ba4 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.common.wrappers.SimultaneousRecorder
+﻿pantheonrl.common.wrappers.SimultaneousRecorder
 ===============================================
 
 .. currentmodule:: pantheonrl.common.wrappers
@@ -28,6 +28,7 @@ pantheonrl.common.wrappers.SimultaneousRecorder
       ~SimultaneousRecorder.n_reset
       ~SimultaneousRecorder.n_step
       ~SimultaneousRecorder.render
+      ~SimultaneousRecorder.resample_null
       ~SimultaneousRecorder.resample_random
       ~SimultaneousRecorder.resample_round_robin
       ~SimultaneousRecorder.reset
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.rst.txt
index de3281d..872318a 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.common.wrappers.TurnBasedFrameStack
+﻿pantheonrl.common.wrappers.TurnBasedFrameStack
 ==============================================
 
 .. currentmodule:: pantheonrl.common.wrappers
@@ -28,6 +28,7 @@ pantheonrl.common.wrappers.TurnBasedFrameStack
       ~TurnBasedFrameStack.n_reset
       ~TurnBasedFrameStack.n_step
       ~TurnBasedFrameStack.render
+      ~TurnBasedFrameStack.resample_null
       ~TurnBasedFrameStack.resample_random
       ~TurnBasedFrameStack.resample_round_robin
       ~TurnBasedFrameStack.reset
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.rst.txt
index 04ce8b1..2e45f86 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.common.wrappers.TurnBasedRecorder
+﻿pantheonrl.common.wrappers.TurnBasedRecorder
 ============================================
 
 .. currentmodule:: pantheonrl.common.wrappers
@@ -29,6 +29,7 @@ pantheonrl.common.wrappers.TurnBasedRecorder
       ~TurnBasedRecorder.n_reset
       ~TurnBasedRecorder.n_step
       ~TurnBasedRecorder.render
+      ~TurnBasedRecorder.resample_null
       ~TurnBasedRecorder.resample_random
       ~TurnBasedRecorder.resample_round_robin
       ~TurnBasedRecorder.reset
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.rst.txt
index b6adb9f..db99c20 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.envs.blockworldgym.blockworld.BlockEnv
+﻿pantheonrl.envs.blockworldgym.blockworld.BlockEnv
 =================================================
 
 .. currentmodule:: pantheonrl.envs.blockworldgym.blockworld
@@ -28,6 +28,7 @@ pantheonrl.envs.blockworldgym.blockworld.BlockEnv
       ~BlockEnv.n_reset
       ~BlockEnv.n_step
       ~BlockEnv.render
+      ~BlockEnv.resample_null
       ~BlockEnv.resample_random
       ~BlockEnv.resample_round_robin
       ~BlockEnv.reset
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.rst.txt
index 9792f9e..36e107e 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv
+﻿pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv
 =============================================================
 
 .. currentmodule:: pantheonrl.envs.blockworldgym.simpleblockworld
@@ -28,6 +28,7 @@ pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv
       ~SimpleBlockEnv.n_reset
       ~SimpleBlockEnv.n_step
       ~SimpleBlockEnv.render
+      ~SimpleBlockEnv.resample_null
       ~SimpleBlockEnv.resample_random
       ~SimpleBlockEnv.resample_round_robin
       ~SimpleBlockEnv.reset
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.rst.txt
index acea78f..55816de 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.envs.liargym.liar.LiarEnv
+﻿pantheonrl.envs.liargym.liar.LiarEnv
 ====================================
 
 .. currentmodule:: pantheonrl.envs.liargym.liar
@@ -28,6 +28,7 @@ pantheonrl.envs.liargym.liar.LiarEnv
       ~LiarEnv.n_reset
       ~LiarEnv.n_step
       ~LiarEnv.render
+      ~LiarEnv.resample_null
       ~LiarEnv.resample_random
       ~LiarEnv.resample_round_robin
       ~LiarEnv.reset
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.rst.txt
index a3a5f3a..51331b7 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.envs.pettingzoo.PettingZooAECWrapper
+﻿pantheonrl.envs.pettingzoo.PettingZooAECWrapper
 ===============================================
 
 .. currentmodule:: pantheonrl.envs.pettingzoo
@@ -25,6 +25,7 @@ pantheonrl.envs.pettingzoo.PettingZooAECWrapper
       ~PettingZooAECWrapper.n_reset
       ~PettingZooAECWrapper.n_step
       ~PettingZooAECWrapper.render
+      ~PettingZooAECWrapper.resample_null
       ~PettingZooAECWrapper.resample_random
       ~PettingZooAECWrapper.resample_round_robin
       ~PettingZooAECWrapper.reset
diff --git a/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.rst.txt b/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.rst.txt
index 50d2996..cd0b1bc 100644
--- a/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.rst.txt
+++ b/docs_build/build/html/_sources/_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.rst.txt
@@ -1,4 +1,4 @@
-pantheonrl.envs.rpsgym.rps.RPSEnv
+﻿pantheonrl.envs.rpsgym.rps.RPSEnv
 =================================
 
 .. currentmodule:: pantheonrl.envs.rpsgym.rps
@@ -27,6 +27,7 @@ pantheonrl.envs.rpsgym.rps.RPSEnv
       ~RPSEnv.n_reset
       ~RPSEnv.n_step
       ~RPSEnv.render
+      ~RPSEnv.resample_null
       ~RPSEnv.resample_random
       ~RPSEnv.resample_round_robin
       ~RPSEnv.reset
diff --git a/docs_build/build/html/genindex.html b/docs_build/build/html/genindex.html
index 4892ae5..534beab 100644
--- a/docs_build/build/html/genindex.html
+++ b/docs_build/build/html/genindex.html
@@ -295,6 +295,8 @@ <h2 id="B">B</h2>
         <li><a href="_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.buffers">(MultModel method)</a>
 </li>
       </ul></li>
+      <li><a href="_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.build_mlp_action_value_net">build_mlp_action_value_net() (ModularPolicy method)</a>
+</li>
   </ul></td>
 </tr></table>
 
@@ -449,6 +451,8 @@ <h2 id="D">D</h2>
       </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.do_init_weights">do_init_weights() (ModularPolicy method)</a>
+</li>
       <li><a href="_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy.double">double() (AdapPolicy method)</a>
 
       <ul>
@@ -595,6 +599,10 @@ <h2 id="F">F</h2>
         <li><a href="_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.forward">(MultModel method)</a>
 </li>
       </ul></li>
+      <li><a href="_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.forward_actor">forward_actor() (MultModel method)</a>
+</li>
+      <li><a href="_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.forward_critic">forward_critic() (MultModel method)</a>
+</li>
       <li><a href="_autosummary/pantheonrl.common.wrappers.frame_wrap.html#pantheonrl.common.wrappers.frame_wrap">frame_wrap() (in module pantheonrl.common.wrappers)</a>
 </li>
   </ul></td>
@@ -635,6 +643,8 @@ <h2 id="G">G</h2>
         <li><a href="_autosummary/pantheonrl.common.agents.StaticPolicyAgent.html#pantheonrl.common.agents.StaticPolicyAgent.get_action">(StaticPolicyAgent method)</a>
 </li>
       </ul></li>
+      <li><a href="_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.get_action_logits_from_obs">get_action_logits_from_obs() (ModularPolicy method)</a>
+</li>
       <li><a href="_autosummary/pantheonrl.common.trajsaver.MultiTransitions.html#pantheonrl.common.trajsaver.MultiTransitions.get_alt_transitions">get_alt_transitions() (MultiTransitions method)</a>
 
       <ul>
@@ -659,6 +669,12 @@ <h2 id="G">G</h2>
       </ul></li>
       <li><a href="_autosummary/pantheonrl.algos.adap.util.get_categorical.html#pantheonrl.algos.adap.util.get_categorical">get_categorical() (in module pantheonrl.algos.adap.util)</a>
 </li>
+      <li><a href="_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy.get_context">get_context() (AdapPolicy method)</a>
+
+      <ul>
+        <li><a href="_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult.html#pantheonrl.algos.adap.policies.AdapPolicyMult.get_context">(AdapPolicyMult method)</a>
+</li>
+      </ul></li>
       <li><a href="_autosummary/pantheonrl.algos.adap.util.get_context_kl_loss.html#pantheonrl.algos.adap.util.get_context_kl_loss">get_context_kl_loss() (in module pantheonrl.algos.adap.util)</a>
 </li>
       <li><a href="_autosummary/pantheonrl.common.util.get_default_obs.html#pantheonrl.common.util.get_default_obs">get_default_obs() (in module pantheonrl.common.util)</a>
@@ -753,7 +769,7 @@ <h2 id="G">G</h2>
         <li><a href="_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.get_extra_state">(MultModel method)</a>
 </li>
       </ul></li>
-      <li><a href="_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.html#pantheonrl.algos.adap.util.get_L2_sphere">get_L2_sphere() (in module pantheonrl.algos.adap.util)</a>
+      <li><a href="_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.html#pantheonrl.algos.adap.util.get_l2_sphere">get_l2_sphere() (in module pantheonrl.algos.adap.util)</a>
 </li>
       <li><a href="_autosummary/pantheonrl.algos.adap.util.get_natural_number.html#pantheonrl.algos.adap.util.get_natural_number">get_natural_number() (in module pantheonrl.algos.adap.util)</a>
 </li>
@@ -775,6 +791,8 @@ <h2 id="G">G</h2>
         <li><a href="_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.html#pantheonrl.algos.modular.learn.ModularAlgorithm.get_parameters">(ModularAlgorithm method)</a>
 </li>
       </ul></li>
+      <li><a href="_autosummary/pantheonrl.algos.bc.BCShell.html#pantheonrl.algos.bc.BCShell.get_policy">get_policy() (BCShell method)</a>
+</li>
       <li><a href="_autosummary/pantheonrl.algos.adap.util.get_positive_square.html#pantheonrl.algos.adap.util.get_positive_square">get_positive_square() (in module pantheonrl.algos.adap.util)</a>
 </li>
       <li><a href="_autosummary/pantheonrl.common.util.get_space_size.html#pantheonrl.common.util.get_space_size">get_space_size() (in module pantheonrl.common.util)</a>
@@ -997,6 +1015,8 @@ <h2 id="L">L</h2>
 <h2 id="M">M</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.make_action_dist_net">make_action_dist_net() (ModularPolicy method)</a>
+</li>
       <li><a href="_autosummary/pantheonrl.envs.blockworldgym.rendering.make_capsule.html#pantheonrl.envs.blockworldgym.rendering.make_capsule">make_capsule() (in module pantheonrl.envs.blockworldgym.rendering)</a>
 </li>
       <li><a href="_autosummary/pantheonrl.envs.blockworldgym.rendering.make_circle.html#pantheonrl.envs.blockworldgym.rendering.make_circle">make_circle() (in module pantheonrl.envs.blockworldgym.rendering)</a>
@@ -1329,6 +1349,8 @@ <h2 id="O">O</h2>
       <li><a href="_autosummary/pantheonrl.common.agents.OffPolicyAgent.html#pantheonrl.common.agents.OffPolicyAgent">OffPolicyAgent (class in pantheonrl.common.agents)</a>
 </li>
       <li><a href="_autosummary/pantheonrl.common.agents.OnPolicyAgent.html#pantheonrl.common.agents.OnPolicyAgent">OnPolicyAgent (class in pantheonrl.common.agents)</a>
+</li>
+      <li><a href="_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.overwrite_main">overwrite_main() (ModularPolicy method)</a>
 </li>
   </ul></td>
 </tr></table>
@@ -1476,8 +1498,6 @@ <h2 id="P">P</h2>
         <li><a href="_autosummary/pantheonrl.envs.blockworldgym.html#module-pantheonrl.envs.blockworldgym">module</a>
 </li>
       </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
       <li>
     pantheonrl.envs.blockworldgym.blockworld
 
@@ -1485,6 +1505,8 @@ <h2 id="P">P</h2>
         <li><a href="_autosummary/pantheonrl.envs.blockworldgym.blockworld.html#module-pantheonrl.envs.blockworldgym.blockworld">module</a>
 </li>
       </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
       <li>
     pantheonrl.envs.blockworldgym.gridutils
 
@@ -1570,6 +1592,8 @@ <h2 id="P">P</h2>
       <li><a href="_autosummary/pantheonrl.common.multiagentenv.PlayerException.html#pantheonrl.common.multiagentenv.PlayerException">PlayerException</a>
 </li>
       <li><a href="_autosummary/pantheonrl.envs.blockworldgym.rendering.Point.html#pantheonrl.envs.blockworldgym.rendering.Point">Point (class in pantheonrl.envs.blockworldgym.rendering)</a>
+</li>
+      <li><a href="_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.policies">policies() (MultModel method)</a>
 </li>
       <li><a href="_autosummary/pantheonrl.envs.blockworldgym.rendering.PolyLine.html#pantheonrl.envs.blockworldgym.rendering.PolyLine">PolyLine (class in pantheonrl.envs.blockworldgym.rendering)</a>
 </li>
@@ -1813,6 +1837,32 @@ <h2 id="R">R</h2>
       </ul></li>
       <li><a href="_autosummary/pantheonrl.common.util.resample_noise.html#pantheonrl.common.util.resample_noise">resample_noise() (in module pantheonrl.common.util)</a>
 </li>
+      <li><a href="_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.html#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_null">resample_null() (BlockEnv method)</a>
+
+      <ul>
+        <li><a href="_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.html#pantheonrl.envs.liargym.liar.LiarEnv.resample_null">(LiarEnv method)</a>
+</li>
+        <li><a href="_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.html#pantheonrl.common.multiagentenv.MultiAgentEnv.resample_null">(MultiAgentEnv method)</a>
+</li>
+        <li><a href="_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.html#pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_null">(PettingZooAECWrapper method)</a>
+</li>
+        <li><a href="_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.html#pantheonrl.envs.rpsgym.rps.RPSEnv.resample_null">(RPSEnv method)</a>
+</li>
+        <li><a href="_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.html#pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_null">(SimpleBlockEnv method)</a>
+</li>
+        <li><a href="_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.html#pantheonrl.common.multiagentenv.SimultaneousEnv.resample_null">(SimultaneousEnv method)</a>
+</li>
+        <li><a href="_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.html#pantheonrl.common.wrappers.SimultaneousFrameStack.resample_null">(SimultaneousFrameStack method)</a>
+</li>
+        <li><a href="_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.html#pantheonrl.common.wrappers.SimultaneousRecorder.resample_null">(SimultaneousRecorder method)</a>
+</li>
+        <li><a href="_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.html#pantheonrl.common.multiagentenv.TurnBasedEnv.resample_null">(TurnBasedEnv method)</a>
+</li>
+        <li><a href="_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.html#pantheonrl.common.wrappers.TurnBasedFrameStack.resample_null">(TurnBasedFrameStack method)</a>
+</li>
+        <li><a href="_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.html#pantheonrl.common.wrappers.TurnBasedRecorder.resample_null">(TurnBasedRecorder method)</a>
+</li>
+      </ul></li>
       <li><a href="_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.html#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_random">resample_random() (BlockEnv method)</a>
 
       <ul>
@@ -1901,8 +1951,6 @@ <h2 id="R">R</h2>
         <li><a href="_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult.html#pantheonrl.algos.adap.policies.AdapPolicyMult.reset_noise">(AdapPolicyMult method)</a>
 </li>
         <li><a href="_autosummary/pantheonrl.common.util.FeedForward32Policy.html#pantheonrl.common.util.FeedForward32Policy.reset_noise">(FeedForward32Policy method)</a>
-</li>
-        <li><a href="_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.reset_noise">(ModularPolicy method)</a>
 </li>
       </ul></li>
       <li><a href="_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.html#pantheonrl.envs.rpsgym.rps.RPSEnv">RPSEnv (class in pantheonrl.envs.rpsgym.rps)</a>
@@ -1963,6 +2011,14 @@ <h2 id="S">S</h2>
         <li><a href="_autosummary/pantheonrl.envs.blockworldgym.rendering.PolyLine.html#pantheonrl.envs.blockworldgym.rendering.PolyLine.set_color">(PolyLine method)</a>
 </li>
       </ul></li>
+      <li><a href="_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.html#pantheonrl.algos.adap.policies.AdapPolicy.set_context">set_context() (AdapPolicy method)</a>
+
+      <ul>
+        <li><a href="_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult.html#pantheonrl.algos.adap.policies.AdapPolicyMult.set_context">(AdapPolicyMult method)</a>
+</li>
+      </ul></li>
+      <li><a href="_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.html#pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.set_data_loader">set_data_loader() (EpochOrBatchIteratorWithProgress method)</a>
+</li>
       <li><a href="_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.html#pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_extractor">set_ego_extractor() (BlockEnv method)</a>
 
       <ul>
@@ -2035,6 +2091,12 @@ <h2 id="S">S</h2>
         <li><a href="_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.set_extra_state">(MultModel method)</a>
 </li>
       </ul></li>
+      <li><a href="_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_main">set_freeze_main() (ModularPolicy method)</a>
+</li>
+      <li><a href="_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_module">set_freeze_module() (ModularPolicy method)</a>
+</li>
+      <li><a href="_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.html#pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_partner">set_freeze_partner() (ModularPolicy method)</a>
+</li>
       <li><a href="_autosummary/pantheonrl.envs.blockworldgym.rendering.PolyLine.html#pantheonrl.envs.blockworldgym.rendering.PolyLine.set_linewidth">set_linewidth() (PolyLine method)</a>
 </li>
       <li><a href="_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html#pantheonrl.algos.adap.adap_learn.ADAP.set_logger">set_logger() (ADAP method)</a>
@@ -2043,6 +2105,8 @@ <h2 id="S">S</h2>
         <li><a href="_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.html#pantheonrl.algos.modular.learn.ModularAlgorithm.set_logger">(ModularAlgorithm method)</a>
 </li>
       </ul></li>
+      <li><a href="_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.html#pantheonrl.algos.bc.ConstantLRSchedule.set_lr">set_lr() (ConstantLRSchedule method)</a>
+</li>
       <li><a href="_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html#pantheonrl.algos.adap.adap_learn.ADAP.set_parameters">set_parameters() (ADAP method)</a>
 
       <ul>
@@ -2077,6 +2141,8 @@ <h2 id="S">S</h2>
       </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="_autosummary/pantheonrl.algos.bc.BCShell.html#pantheonrl.algos.bc.BCShell.set_policy">set_policy() (BCShell method)</a>
+</li>
       <li><a href="_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.html#pantheonrl.algos.adap.adap_learn.ADAP.set_random_seed">set_random_seed() (ADAP method)</a>
 
       <ul>
@@ -2358,6 +2424,10 @@ <h2 id="U">U</h2>
 
 <h2 id="V">V</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="_autosummary/pantheonrl.algos.adap.policies.MultModel.html#pantheonrl.algos.adap.policies.MultModel.values">values() (MultModel method)</a>
+</li>
+  </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="_autosummary/pantheonrl.envs.blockworldgym.rendering.Viewer.html#pantheonrl.envs.blockworldgym.rendering.Viewer">Viewer (class in pantheonrl.envs.blockworldgym.rendering)</a>
 </li>
diff --git a/docs_build/build/html/objects.inv b/docs_build/build/html/objects.inv
index f099ec70c28a62033aca2b42b0881d4d54db4e83..1e5c71eff4748fa4efad3fd339338650d0222939 100644
GIT binary patch
delta 7822
zcmV;99&zFFJH<Vadw*}-ys^jc{V5hW=k{@%6gU^f!2z7NHfVylaZUsDMvx_XSG88s
zqn9|FPhU~m7ir(bnfZ^T-q>C*XXZzWB01!c%>1NWnKa4cMYj3#It{DXEdIFg{Hjcg
zYQ6UJ%^$LTn%h;mj{mDo_1k|he!J;><;Tmka8lBw98`7dhkt%X&}WmoDQ$juvGMbS
zs{bHKHg$XV?(W{&3u3=07O#lrtaNMB+1PE6#<2-XFRy>6RoOlrQ?Al*6!S|{dM5cX
zfz`~<{o16-r^xaT6L?9Qul+dsWhN+qL&YA^X6lEdn_MnUZjEMnnwh-ZjAAy+O&A5`
z$eAttA7*TmlYhLu*6QKOj%;|cX2TlK{Ul7+USZ7GZ&I22k$Qu%G)YPBZLN@NN86;m
ztN*;)nWA*GeQBrMbduX<-w(<tr5B^jFt4qb*{rhAFO9O%ERCZeG6l8D?BpD4%|5vW
zySE=U#F}$PgKOTpBAyrcaqM~2Vg;G^!_eCn^F#ny7JqLhvi<l}4`0ex|1*{O>gkEm
z<$$aQt0)e0lT2kktERGCh5kgQL-QjF41MT|GM`qDlfCHXhaXR9x~jXbZC5?j8)tsj
z11>K&Sw1B|P<l_sFRR>4RSr$7JC*G;fARBhBI|az*tYr;0t9JN)-_>5f-ow|JbJ7+
z<7Oa6`+q(bC1X$vq}cnO6EYOl<D`SYl^;J%WI9Ts(t9z{a#c>%9!8T5g`&bvT9#=Z
z{W77KJ{Bhb;ZOKha%K~OroE>;U2jWdN{psS@;I}NAd0pBZ1$rBZ#!(5tW4UbX{xs~
zsaxmJo7Pur87B7FT8KG34E}U22%~N(y)yMmlYbPGy%m!e!U4dR#iXq!b8QA|-Lqci
zWN$`pmi4IG<ldtnJX;sXTczpq<S<h@J9~<)(>IF}*|F4>W*$6M9M7xH^oizDPDcYX
zFH4JZ7GRS)ZhMNUz1TfS_YqB9b$+iRJAPi~b=8>+!Y(l<X;e&AMK}=*DAR!-8|L~f
z3V&hp3AbVvGhLRV2{(w6rERh%<5>B1tFSifG@okKvG~36i<OsFWmc7wtp!a!$55t|
z8TQONE2nz=te_i|?M*h-i&rHxXpMhPHq-jc<Y_Yyn8yC+DlX;mEmjNDI5N&ff&q<p
z5rKf>UL*{__!kidY;ILT0i0bGVL+NF5q|+DK1PB7jFS;zpyFjD5TLjjDFQftMudZm
zqY;B(<7p%~sJI#t11!EqLII7lk%Hjde<=w#?na7(ot2Q%AZIY8EXa5q2@5DLM}h#3
z&k><aJ~Y#e*O736;&!A6;P@Re4s?!9LZcVYBcg(Zl1M1f@jY^unRue;cpo_nG=Jnp
zf`g9#k+96BP?X|<L`bl>AOHm}K1c$i7AJ&(nuF7(6*mNB0tPo=xHRI36v*aQZklmL
z5WrbDqAGDl5Fnj+BN-Yv?nnlMj6af)fZ~uu2-p>H5z1^PCW~3k1Zu=7iFmN_N+J|^
z+>(f9E^{l8I3^hYES^b(0g7u9F@Ip<n<NPEI423r&&g-3k#SEX4x9LM-G0a1u&2EO
zx=DGklf*b6#7Sgc6xbxOEDmQ985d3<OKgiLj77!;ZH&mSBuq(SSQr%~F)fM(5*e0<
z+(^vJB3ne3h4Cx^+n#K#4nYv)Q5gl3AOJ#nq~;OcsgyxJ?<FOW$D~LIM1PSe62s9%
z-5V-^K*Ath`<2+nEX&IYCLLR0mf+<CfHh_b#MI`yN79aM9K2qOL7A>U#;(mmNyN)P
z7#iF<tOCzG$_T&a3c;Ficm-Tvg<v38Rb@bswNwd0F#`_-vI->vn06p6SmTkI6|U@v
zjEmNDM3yD1I1<Cc06mH6pMMj%nez1+XX{lN#nf9Jtc>H04o%W#zg68-EYmy++PTuF
zDruMEUO5{)(&Cb_?oKc7Ij)BoMIo`?*W^qPzxIl3WpX31{b{Ge*=k}p7WlE3RO`of
z<iIrDSLAHJ9=}Cp^uu^IL_w7IBTdc(mEENzw%*a=WVx;#VGWxvO@9(_?e=tBvHBPg
z-rdJw_@%AWym{-sINKz@%4ffS_x{7(|9|@Cy}A4L_OIT<$A7-J7W}f^_Gmy>Y$%zR
z?JtdSY&IQrH^V&}SL20#={LR#X*BL;hT6M3X?<9kI3_;QM#f3;_66mXI>AVxY2<C1
z)FauX{Pgu9Sec!-=YL#Ur{Yv|oX7->;pTp~T-WUTEDcs)@;81NtUlImq+h1__o!Um
z=jpO`;tEn>4=IzOH08m5!DVc@32edURnV>K&V9#O4Oc8Soq(Scx{s~Ia38WuNWIdv
zCr31M`?>ve7u(@sxmvr|s_S}&i|~@5;JQ~WB>EMwnk1|R1b<B+$yKphT+}NC)i`LI
z$@MVE*UW06(6=#akq|dgsA0^ebzxmws|ho!rjCETtrij0?-6q_?lV0WbswM{Cgs|H
zP%k#Uu7{A@BSD7Op@qVVj#h&q#!72(Fe0bbP{<KKdL&U?*OfTi?&WCr?|X?UX8^|t
zOHxB2EnTQl(0{_gwJ;bbSE`|;9`o=lJtAV{ycP&Cj$RXkd9J1!5+~4K6^3`drWO))
zCxRLWd0&DSiJi{ac969r6qQAL3S0VE%mj`ct*8mZi{#NH;zWFD@^JPUXz>tt9cW?9
ztQ(JJG2la-g{j5HoWj(=V4jJoio}ZM(;{ll#@u#b_J4rnnK*dzBRkc|$lFo0NVt21
zba`gvnsfIL>GFuCsL@E=qde7kewh3vkLvbu&6}x41I_Ab3C|c+!(uPcp-IHs#q`1E
z;*LqTl8wg2*a4%@CfQ~-GTj`@53vPJ9db5)xM+KtI+Sd)njRi=>zWo2Gj;@y!8@K!
z4QF<ff`69iDL3ZVY=)p+qPa9l9j3ZbDwA0>Ns`k`)tGpDN7ZoHr<ke{&1p7_w9{1&
zg1qll4JDsP6G+?>tA)Wn-Bb(c=PcGDIJ;;WEJ3<nr*8Wk+N9Sa2e&EwrAf+yqO+B7
zR(*SCf4RgUo)NoJ4E=P6RcNP2ATd>Cq3b}6XMg5ht!Tq6wSz3lkgWW;M%g7vGWg}`
zsePxIMcS7q8<Z8T)VTYm4y;}Fqoo^8WKTB{m=iu*k!kjm6<Os!SEAXkCP?$J_G21>
z@4264t&2r_yl2&L&C4D)9;F_fCic7n*U&*t9(KjxVm#DtQxu5a{Sy@&v$9HoL0}g?
z$$$L1ip!`G-0i(`95MC;9R`m5^i5~~zP0H1e9tRz&f7sEh|_{pt}x5CR=u<@gJ;jL
zm;@rpw%fNHCrZ%vbCbC4jmMiV9OHn{mW$G4lNhd&w!($uKJC9naa;?${~4HU*NU3`
z2cr37W$qaE9IL2l10`)uPYcud?KT>%$bWq2tt5&tVYr*&_WWHx%d49Z9$}M=Vc4I3
zQPcw$J0E7h@uE6y{<M8)6XMyvBed_K^CoFs7PGWlk-`~}V0u&tPT~o>7!ZZ5yTL#p
zh8Yl&P8j)2nqTP<2n131>#T0)k}8hp!g8oGv!F?<B&>fvM#=O@lQ%2Hw$-P_t$*wD
zOy3J_&*-qjsb~%?`wC1r^iGjz`pyXA1u;qPV}E0Ej3;!Y%N^n&vY-9Lq*Wntg^u*F
z0buSB4hZKG!I*?@5spL6HG(06+#@KDxO0NiVB91aQuD3UT>{g{dMX%9GMi#aW>X{x
zZxTiW^(bLfQm+yS0`V;IJW}scfqw|$VIr|+(d+;{O*qp$I&_f73FU!#oj9s_bY2ke
zlTGuj%9A&KVM2-D*HywZ4fFUAC^%maK@*q4VHN;F=xQPe)SOHJoNf6he?}l57epfN
z3_%<izZL)k@n``Y$t)Nqe_J3fBY*?yECP6>ZXyH$;vgbPq^=>91>qE8fPW@#Mu3hW
zkY?&$59IuTNMLRsf@kVZ2jc3vavYzJ=oq=(5p#&!?xz0IH|Xd|UeMr}v!2M-hg|!`
zv+Eszc!=#OxYHQlA1E=N`Q3@l+k89RDRx~6)vj&oB0t91?<l**Q78VFJ=-LwyjXi7
zhu7+mwh1fv*5CEx_-0*J;(wI4Q>kX#OU&Mcq{3r++_~_yhxi?6#)Rok07|RN1zjQ#
zT;)-tgH$CIy4?7oxL&D{VXC|ctt0R`N}{zNvnu_m8m@Ue4xx?#R5<8E5fuzb?FI5+
z>MR>*H++}2(&rTM5peCZ0vDuZ26JI*HI@lfv)NGgcH^cVd%ssv@PF+2#qNwN_hI>v
zHaC(^ZSm|~x%RxRr-Vy#UfVU2s*GZab70du_ytX}55|Na+Jj>M^xFNtzX26Pxj8FC
zy5&y;fOxl`3WD>Eej3(E_xPy*5YFP)uunRBUj@MNJTevAu2<k`7$;qPrvl)9xtxZ1
z=PTv3jFT^tQvsn}AAhHYK)p0h1H}ERI2G%J3*t2F6K`JALa;abH2yAe01OAAp7E^3
zK|4WRi-LB^n+ApR)ovQb$rrk*KukDPkzL-VLF9a8o0f6%MQv&z!~>}{I3%~9sqhf4
z(9*C^zv)bmVsamgeyf=t1@U$)4G{VbW*QVTC<ylDU@9<#D}TWh?R(ZUobW9X+()L1
zGp%dFzk6&H8qzgJx<tHt#zthCPg%+C6jMc;*x6&=AEt`Jy){e+ihNg?4u%a9PSU8D
zuBtfSQl?^@dbx@U#7t(Zc$ZnJkWjC%Qh{JxT&2P>{p^6_B~?1630G68061SrrDEOn
z8Y&IrjLWAqFn@kdIB!b3Xi7@(V7DN0Poq1dVbI`q&qgy7de|c59;9<Y$)Mf3S_M@T
z$g|&dNi=$-Vc23EW!=?Us=1E%psi*d%sly3%-EQ5PJ@%hrX0K?`em2~4+;kD9X5&X
z#*RdLeFfL-ZMTq<ZcN+BIK*`Alm4~#66)c`-z!rYLVrNlS$UWI^acEo)WU$Qk~fj^
z?Kb-=+N)<s*9x6iKsPD5zX!%3i4YY)bOZc9SbzMX^n+*4LpZNV03kSeMiWYM28|*Y
z`5+ig7T}REikR$kS(KR=d)1YRxM#H}Vlhu`Q758qWmg1BW>q}Ntcr$r$c!S9@VFU8
zGWx+Ys(&!dBWT88q8~;x3Kj2I8eO#6G)tnRYDVCi&p?2Ee2p@b;2;}KviWp&%)@Qa
zL=q4GoE|m++OY%x!JSGu6ULzgaA-S|azv~niQz%@9T*zv>>8d3>e9-QknSvs2GWJe
zVUpPtOEQ}x0lKep8V%P~P6cvX5g<sH703f}SAUU2KvxxlHH&5k@1o+E<}t*;x~3Q&
zv|9?Gnn&k_bVubhkabr!(*8sr+1l$FHC*!u=NO6uagCuwjC(&+K=>XyltRNlM*?#0
z08s&vPZOYNBt1BqMeL9xfu!y@k|mi9$1L6=sqc$qL3zGNCV}6J#gKZvDl`J0SBFRF
z@qdD$X3)%Fyj=~VIrNlrPZv#t@N=O|bLga`KCYNWve<f}gl8J+NlH<$UZj);;z0@_
z0N$gNK-F^;!eP8dAq3E41du@bKmdnyF&W8%^IC;4FppKpk<5Z&@;4Xer3yLV9;%QB
z;hl;RV4f+81mTs!SWq6R9BATZ1nh}|Xn&^efq@<<fCTD&N_nR4bYNbmkOQ)&%7b~b
z{&F)aqwPFDqrk~tzJ-&R?CCgbwI2PuZF08>ukCDazJH9<;Q1xZ<8ZlIyQ}Sq(TsFH
zaqS&Gu}$B;v46gAJ*lBd5jRa2pO%9tV|ru+DAq*D2wapY6MY=_$&(RS5Ys67n17@R
z6@47~)XF$alp)?YMC2(BeJtu^hdxm<GnyH_Y1F9@eIo9ph&~x%dSnb3>O{$iOoS<u
zF{y}?C!?Uvrdi@msEo%opMIA<$ubTTXS!tsviWp&)F~J>qIc~Pfp2%tL7Ly~+&P)+
zdqFV{vAyuv{an$hajPtJJ(^h+b$?km74`tdf;+{sS3sO$Imm@|h41vt4s&6y>d1vq
z*P^=dw1<GU3cUU7la%VLVg_IC|A@*Bgs4?TXIT4XurdXLVXKPHkj3t&ybddJwcif3
zqh!f_S@sHuFUvvhZtG7on&Z9_a-LhMFe-f4TUxakOfn_H+cZw)kD$@QG=GkJ2qFs9
zV_-w9GwV139!0B&kI+njOJ=&DFtX_Y1(a8_V6mP^uzPo>qWKWTu?g?fc(ZH=s-l|P
z(<X!g)?p|Xsx~V?y_y*nu!ak{{$kp(yr_0tB|Ou>x-5V|)m$;ct4SGvwUS5iaqTaS
zxHdLgn8tziQG|i2kpPHS6Ms_xYbBH8Q<TVSrB%W+4Xl#_2vm&}BfOfF0azRP6c6Pl
z#?;70lK=we;6i9nj;;{qdlZ%{$n$A52_Ue~M@)l!K1`VVG-5B49BE-12e#)T3{;B_
zfOs`A1+Z0TbHp3SIAf=Xj{vQoVi;U41);o}1q-ysLTKXpkC$D?H-8n;LuA7jnsNR=
zBJ*P8)Bh(L0Z_8|Vr8~yU98fVS-^d>TTGtPTs}j!*Cc?zjin$osIe3TrU@QOOJ5Sz
zp@7s}Vml+AX3tbSeJO$3M(%sPm9yiFrQt_;LP65Rl+oHu&I0NhgcM=!zj#5E2k}f;
z;_cXYdXnt0BsdS4S$`Bw6V#XI{$_F#l*1szu+9CWU3xAiM|p{oFs)x_+p>h-<HoCs
zDGR9CniUmU><gmf&Z^_Fw8eu$X|>Tw*8a2c0zWIN*dSQC`nWXv_8$Y&sAIBpT3rZC
z#$7PqOYfRp7*0&^c#Foll5e{{)<cYTJQ06*^L-oUED1*+Qh&=Wr4v2!Q1sDIWnt)=
znD6~!bKh=e0Y2}JRuG)h(^de*KWhkN^AF)63j<m~aG=8%#)3s1$}kqM@UVuFFh!p9
zSd2=CJB)-cJ@jEDOvqsnBeDuNtBy#DI6Pt`T)?3cBatTmA(a0CZ$98~ijhcxhgOV4
zESqQ>4H9t3#edkWvcoS%r<EUyF&^^ln^o8$8YA=0f4l-YbYnzT&|w^75zl`x064ru
zi*$eJfZgvdJ<GsFJDYTSDnj!gAYxbTWwto-bJC%vTY<r8?Oi(io37pdCYiYXRR3U2
zlwZ{{Sa27_I1{5PAk>LZ6a-~H^PDiv6nl0OVVXbJh<~t7o;d^<CC&pPEW&2>05J49
zI)G8;j2p-@c{~cT%bN`Y7-!9G0qiD|*c`n!vu2S1c13eS0Q=M#9*9ZSd=1hvb@l~n
zn=_Y!0T}r;7R+-1t&iPHFy|mZmf1532>W9<+AMFMW;ZisSr71jrK!8mc#s+N7&}St
z+du!Arhj+u-+ph08O|QdfF76pofqW#F?v9J??#P@=zi#Nz?>2_M5foE%0uoYRB3n~
zh8hxi{I5tt>tOUiIKF}!jmU#gqoVp1iXbd+L!XE0gN#7L@k}(aX3^{jycl(+dGuOL
zk4Ke<?FZ>m&7<>T`Alq@JS#|xd2RYZw`rTK{(nVQUH>Aezx{guKv_9DksK<TZc?tV
zB{RzRr$ly%K9kHA%r6pQFnu4fO>$2mw#f5gL}pp*BLIuEW?f`388v&!s9EE<R3eKa
zw@GA~>KX}+vD_bwO{$9nvdVE|q^3uEEd}lf#O`<<3Dd0*+hn^AGRxyNwk#KbZSlK_
zmVc|#gtQ>ID>_()Spjfx2x{<~6Tk%xi=qtw9HznIx64MXj>X~gB~`b6yi5xhg-ya^
zwe5eeE3f?!KXbQWQ=d1}eC1%P`QgRJ&l95AgWwf{PAVGA?cKY(dp?nscEf6tI<Yk`
zE|F+oMHg2RI9tEHtN*-XbL^!Di4I9!*ngT1A~FRLYA1G$W|xM7(ZJugofebmpuq*M
zlbp%<x%Q#ttX2z=*NTvst-$9rG%*)<ufU0PpV|e|-kwLqvLe?&?Dwvwo4)na>)MT4
zncQ$ddJ2ZHn$+<wH3>4Pd*5Z6M}Z%6F*_=pKs)JasA*ExV|?#9_TscC*tmT)Zhy#q
z84`BlmsRe^wY#}~tespYbzh4UbYFzToTWunMn8;K{9gI|3Vfu-iTX%}gk2?3DMaq5
zaKi1RcSfyiQCR0NuRGO%1=>?Eh}la$0QnfW^E?I@Og{#LR&L+CB^i42_M)x&I~Q{g
zD-*{=n~lsh!%c!=>&@-Q_5VM8eSZj6rdgVyfSih7W;#tfjQ2iEgVmS(jlJ#mV`(?d
zrTO=$T;1pCvUdFo66}z&%jiRr!x_oVVO=95j{44uUxqzRJAl_LuK9%ae=BeSVf(F{
z(OaTZ*Au%AaO>jG_4R#jKi$Q45KykxT&`n1E}$nuj^uQ|=2&uo&e6L$(SN$l57o!H
zuE&wJFLaSSNZ0GssrI!gPpr599?;)<s|CSKD{#Tu_FFfjx6Y3E8L{gCx7S_oe%g0-
zDV51`kR1RzBy^<u^7Pc!5GGk)et@o@*p)Dm0VV{#gpT*M?rZWeN|ue#E)brKc~;E;
z?pYZ}><4=@LLe&H6BPrvCx7XOP@5I&M%V@*xbyYoE<yDYkx1H??7aYKr@)DApPB~w
zw<wNlq4z%nlQqi-T-akpZqUb4G<Z9m6g723Qp`OqZrD8$8uNYZZ%i&P?;|~K+($w*
z@`uQN_7js<g`~WX^th293DL;EReAEpFH9)G?kaI(?n(>+cLFyEgnu2WOGuq01cuu$
zVxBJ~wr+9?=Qd!#tN+L3>}YV|>?G%K+NJ-<j{&?LO%(2q*bsj$@UO!EK^mv*WiB!8
z6F6IMTifQ+pvY#WVBs7q8RR>Wa0l)-R#NT@x`y#D2)gH@BlI~+qP5%Vf`gi2_EQ-G
z_O8{Hmi#$I4(Mm3+<)Oizx10(67Tma3Z6Z`2&156;h$GEoPqOl?pY`g`L-85#`gHG
zr-YS-^Qwlka9(aG3$E*po#dBLuC6n7<v$n`en|5dKM()(+I<3OK*cqzbLpK>A8a@&
zXWV*5`YK>QsT13FkHJ%(t_hRI*EL*aJWcMz8TfHfHPx{V&VMCB9*JKiJWA_^7f0DP
zoU9<Tb!4xDbrL#JH5&}t<I#x2rgP#~*^bgW<26O>711xlp*u(q!X1)2u^r;1)2JY`
z^`)<}^^*><Z8uU-9_3Et62<O&SJStDjfyhOH-E28WjGvN`5~xYVrRl;{Mk<4k%r*s
z6$~==QaeL-M}L_ga(`_e>e0h9hxWXtLG1HlEPhE@pVLEPCzt$wpeZZ%GinC8&&bfR
zC8d3$#2uMj&QCUv&E78#=|OrB@sQM+E#GE_jn`8!NZ3n#b1lZ(g{6rFKQ?LqdE<T_
zud|*0DZb~d_LC48I-i(0N7vXbTvPKPZ}&H0iD`SsM}IHKVod(+S-Ed_!5eAryfnp9
zOw8Q{EtJgK<F4(vs$k}6FYkiBPs}2`4fAxr%~49*(M2Nf3i5KXKWTh>p10(69?(k5
z*;y6LJm&t7sNBeN)#@SUqZQ(juWdY;k-rUFJv8#I5RW{I9sT@aEi~#z<c4#xE0gwc
zF{}gUK7TQb@b=E`z?WiLB_!5Hf(QIIjZ-;sqlJdth;W(LncZ{@z-|>$$y+HN{D&xx
zO?bb(d|8@<o;F%GdZN6%{Kc@l*1i%Nxs~7ne_Z=ZBPMRN(2yGu9`h%AE4CE*)9xnh
z1x11n{7`OU40WT4j^2pz`M*bDxq|RFn&|wE7=MrdK8@Hu$B`BqcO$}OjyI5szEeac
zZ>4zf?TtmvEB=qjycl_ZdZLk*ofC0hzM6&Nr!<$h@q10QeC)+|{Gf-yc><DRZ`OLE
zq8=x2#Oxhiv<!3v`MG$BYR~Wml8IIoJrAuMFAHn`*?57U6&0W_>nfvVqbn)NNR$V#
ze19~$IN4|f1-ZyT1Lv+XMm{phuz9Z`M)Y_+ZOp91#J=zNvN>iZPVTI8pg)$m5#2TT
z=6mnXI8Zi@)N-<QtV5d3_kOXtZ%=mu=CY%eo5_xf8{D;#usoh#M!68FxB=ffiOT4u
z3oRFNJvXRZEKzwqxfydIP;ldN`-wAo_kVWH#f2|#obOv9o84c#xww|%hJS-3kLc_@
zlnau`4f&E9KI+Am;#|rb$CIF)agMITSzP}9Msf%>hv(v9)(fK0jl(f+&VZdmuovgQ
zyKy`<j%spuIQHW5_cydt0yzYo^92`!$!@p@=rPGo58+!71aAB+>Kd*;wmSYdNq-k*
zRL182Zt8Tkk7#~2>0<xU#5U#bzisl5_RpJT6@}&xkv#*Wf7(ayi=9OCq1`rg(7zSv
zsJ`Fk=If`$yEG_n)@gVKC)@nC`=S;5+#bT-f_1(f5WC-$tJ-_&Nf&<p?B}ol`1*BU
g_#oDtdsrAh4_5so?f+WU5AFB&b_b&S-%^h@CU-C&{{R30

delta 7609
zcmV;q9Y*5CJ@Pw{dw-AHyp@3O=T{imy?xy#1@@v?EHINy+Mo$C&14&(Hv&iE*y_lV
zUVUWZ{Q8QNKO|eWc)mpSCKKB{=RBk+l7~DbbCp(Woux&x$hUvqWKo^y#UB@es;jK5
zHyc%K|BxTjEZ5a0`L8zBZ~wjc?WXgSN>*9vq{OBiRkc)+%6|d+Oma7+_Mafpsz{;w
zkCI?h%iH(255``YsIpwV0h%+?txacR%P>n49acfn{LSjBeLA{YXVE0)SGo#x`on|O
zTotM@sS6)j{-MJl&5Dgm;$PZB0URs#gf=r3O>T0v(uFaa7g?^0YCDP9ywFh`RugBo
zR6q38CcV79#((PZ$xdw8TeD$|7b=aiO;Bn*^_x@`Di&`rRywV~y{!>)?PzV<+vdNw
zdsC2(wlD3Jn@)1m?5nVfGk7u54CC5*n$0?oRHcQD=2;Slu`Z!iW-sShYYxc`*n|17
z1=gGa4X%0XiUdKZk|YSA#mZz}MNzOTW={Zlo@_nYet&vyhA-8d|M6wMett%DIZW2W
zb(}<nPJNlrYhRY@NO>|H=^t^Z;X_w0^I84m?M2r=RN~Qe-E>{MuG-fdr++pBuAtC)
z;S(UNf@iI&y3oGL!M3`-Y-h!*Dk4wT&2X`8^*sVaaak4dQ;iw5GGerELs=n)l#CPy
z&(9-6S${uy9fGY@^6bfUoW@n~s^itV^3@u}-UcFZX{HRTtcZW<D9D~lUHniU-%89}
z9;4~txyUxV67h*)o1_3U*T+P$Q7`(?M+du3+gq8mO_Q&;Gi_SuDDdkkwG5v9r50ii
z4+B40%7oFhltGmRl}<}<Z-w_lI0Bfm@Y-r3SARx$tp~=(^Y&&Gdew}obrC$N@WnV7
z!8*%cyu<i(H4YRzmunU!vS(>3%{+MOB$-#8=@ZSRoK6O2L7tV>EWo@vZU+kAUhDy+
z`-ps3o!{%&jGtFUQ+2#Sm<8T6i%VZs1QS2NWja)eMy`%>A<SZ)$xzs(_BdUc2E!Z2
zT7Na~<VJ6@!q<vh`FpL(b&%CnURU1MLA-nTRp!lbpf`Et>+z!kPPlAub6+oBoz9>w
z{ON6;^Or6%+YS4%|G7>odTfW$f;7$<<3Yh-jrAabFvWaO7#L$eNEmE0n-mJhxlIxV
zOA|#R;E4^PATY*=kTAGnMJNzVF(Xt2=6~1`5)Nk!2^oYpmV|=C6;ncDV2drGP_V|B
zP(heuO{h4$a{*Ku&RIJu3ug=pg@q{=g@V8wlR`rAJ|L2eQK4`##i~#dm}6GRIIJ^U
z6dJi077`U(_ymQ5JEn!sG86xgJI001!W!m5!Qqa1p|H%RP=sP&NJwn4FbouYF@G@>
z7_rzG9;i9EN>Z^htW1mx`aE0`u`>c>b1OH=SQ-|<SvaC1u{A6}GBGwZH0D?v8VqO5
z4TXd$_J)MOyY5UvnbrK8L`)8ehc`Bdgu))9L!z0>j0Q{04h?`Uc87$)6vIPe;ECm-
zAh5^uP+)#~pC{&w@d0s|#Gjk?JAc83_#70#P0|B<D8?DWc}V6-K|B=8<j@_GapJTs
z#Ws1GmSmjJ#*pk%LUJgEi4iaq)1<f;l3{vy3B^1uii2dC7`s8S%@DCcHP7LgQ5onH
zEmQ(}5CnyQ6#76h9D8cnxmK(x4AjL&ifx{CU^;=<VFk~cFP(s4QIi7U*?&Cq8XXUc
zzb=t?J&u)xJmt?r!?*S(z%!3B;$LTD!SXo5VO&#V!Qfm;qXDt3pHUFX88`tfYak>5
zzhhCt3Iok7ab1CAoV1!ivP@Y+pcww?$=#w)(K}nOt2luk;BI6b4{x_gjl=%wZBXWG
zUDyZtT&L|?%o}HOJsmEYvVRg`(@LzeA`aV0I;7o>7I({8S~ab7@RBs6i?XCx?`v`<
zNKHhyN`kcBJhk075}>ch*?u#KimUjC4$LYw>A9b1awe$F_7Jl5jut1&&2x$x*kYyA
z5No%m<BHX%5b*9kh2t-6ljiQ7`}&+sewEMs{{H^M?f-xJ7Tn!_dw=)W;PK->?~Mgj
zwfoI9lNA%g6Xb{cAsm}cN8NVJWkM^0NL9)@44@&gn;B>q>!kH@t&;@!NUh9u#qYAT
z8HA<Pr>~FUTJIedXB+3@P;;0iU4-HLJPX%fiaS+>>yM2qqN=R;9#`v!B3m_%KncqA
zn6m3Ag$@mTQCk;vUw_e^o0mZiS1j6gLKT1(W+yS;%<L0FFZk=p0nIEwx1Vkk)0bE4
zjr)_ku4lXmF9{MZ|C2(3UkE5kf|_fU1fpCVD8&W6U`mVww$W1#1AOVA6bgKckrW9q
zz*!7qHmwWl5<^LtSv7U|%MPW8phIIa2jX_SQ&IN;%5mPN{eJ>_&E0i9fZU!4B8J#f
zD5w}pF&JP(r4$DuzETVY92_A<f(VijLjg@7i&4PhGNmvO$EAs(Km$glK!D++k{HON
z)5MT4@vWjTxFgi0ke~s$VjSRbTqzP%aIPc_Zk1k=2oudA$%6^wmEr*g^-5tN&omRm
znZ*c(<7_i2Hh<)_mjnj#j5ARrRHTj+5&f()F*0yiwG;_9)?JooMot|z4qldrG=IpA
zggpaIif2}ZLp%#j3=6$j!A(Nm;vf$;7dL~t{b4dLMAWuC8)a+6#B_5kKaOn^;*hiP
zFG*V}#Gz;#EadQz+b!gPFh`b2(I8j#*)ed(>xkjZZhz{Ha)g-}6K)HS7!LX<Gclq$
zO<aIB9LYg|w;ze2Aj3h}Ibd6pq%hD&oJj%woW-;;W*-%TCCoOP%q@($O?oXbXqQ5*
zbXt`Vovnnk>gBEZ;}T*tAa<n~`svIf51>*~Ox1bh+S}vIyl)h3k)?K&1sS51AJ!<k
zBtZthJbyp8?-a5~`|@Cew4$XNcaPcTwTphVaKkC>>81p8#Aiz~jefEutN7;%H2YPD
zSrIjUj1~A^s61~cGGLE)Pz}~R?Q!#?G=tOB>{xXTq>|)8R}3u1W8*f(A?e*eQ-Lu{
zs}wv4=)wn?-_%JJTfzO-3da#+PtalD*iUae`+xh^qT}-&R^XhsqePfwC8%84ESp;O
z+P(~d*}?1uBF%TZGaM&Mxa}7@b>05VZ@Sc#7t3X(b1#PLw5@Q_v`_nQagsCw_di3O
z?^{uQ_y9D2s>~h3oMaN)HjvWR^t2$2FWcTED0Af;#x4jG*_e+iH4V|epT*Tp79L`g
z%zwjh*xX(=0~a$NW_}6cCT;P&duSf<>@~~gJ#^j!Da)c)SyMLA3`lr-R2G~xAa*fK
z6twP!2ZCdm!9voB_?=1fOC16+L6mBfH|^Z<G0lP|tJA3Y_bE>OBYA(7%Uw$gi#C?$
z@!#_Aw!NDnOgsmcLj?w$A|*)VzXM?LJb#cR4~g39g2($f(d7>D7@N;3)mdFq+>aAI
zXaF`Bgb#?%4Pj#<x*~iWV(thVB9lwP%0up)SZR1%6E-CKE7e6|rlIvzY%u9;iY1**
zk#Kl$Y&5K192*tYlVb#7^5z7HI6OK|tXaI~jGi4k(>yv*CJ&F5ht135qnbx&!GGfI
zp=rL=MS7=79Z~$Ot`eMSHV=yfh0nL*ph+s?u!aGG=-P1*h&go(aHi$={*0J>N+uF=
zXUN3C<3}>Uuy~LR9O*0=yuU3hE*b*|t8>P{Lv_no5SSb?Ru&Fdj0ec`%gg9~G1B<%
zYnWUvCK5Jhi-X5^Q_tdHxpJHyl7HqH6WkGVhzRbc{?a$-=)Yai;Fz<X$j)=ysPe`2
zej$E{=6ip}5BuGxGrvC>b(e34%V@4Ef!Z}qU91uw`yFN1IGV)&GDj~IkQeJ9<nUS@
z)7r)JZ~grwj&IgwB~E!em$Dlw67=>K5gyay&V}c-h%4QpnG&Wu?MAIG7k_k-K=>+;
z7#&Mh5}_-!ipcd!gp8-klh8T>pW`&%s03B%&(&bfn{fzq3?RY*ABu=zu+&~g9-caj
z2HFqbsjc*oB0K_L`z*l4(lRr1@ziQwCZ?K=hB8;9+Ik%PUdQ1}pvwK}N$$h)F>P)n
zo!SzZOBT&ZPR}WpWLVoZ5`X7gwL9q@`~sWogVxc9_EgP3y>-7RYDC3YZU$vQ*F#AF
z0563SL2$kbO2Rtm0w@sxz&YU(_Ce=@ivT#DbR}Zj^<pOp<Dl!DL;&0`ags3ae07tQ
zaqxvrA|SA9n#2&GmorI#xL?U6VjXZ1lZ1WX^-EF+QCznEE^q+M4u1kYf>w$HcHFcS
z1?;9L2@2=?og|EdZ*>xZ@HkYV-QXla<a}?FlyUHFO=2LxqmCswC^s{S@Bps&k+2WH
zg-MRWyN?CGaY>E>c$JU@2>f;>35ppM1o|c=5g5SzNrLtR;~9E<O9+=Y$>R8RP4E{r
zO+o{@^F@{jcPZ0^On>t!E7}E2qG+C-J>+FeqA1uamSmv77c0qNz^+r0U~s-fNyIqx
z+71zjnaoz<u1OLhfnJUz0)e;^Nrc1y?11C-M>3`XmmY}#IA3)nV%_zEBMIY(YmFo@
zetMiYg<WApC3rL&|FCDS4QLoOxZAT~XF`u#gxrI4E+`qb+kaH6u(p9bhrNzKqbC~1
zEhcf^U9E+h>xhrqvg=^_S=9+*W5$pMCyTZmf-?T4kp_<nM(rK;l^w>8Kzn@!*X->!
zZiDXP+RHe^bRClZweb>~;l|%<U28x<*Py&he)<9`0<|zqR>7M{@pkRLiuO_y(1kU_
z3g9LwH^Z<oP=6vs2@u@?{}09=f2>saf_VtTng|et^IjyOC?~%Na)FOukz`>!h(!<+
zeHw}|6JoErFcJ2I6hSQHSt;T~(5>u(K<TWCC!JN%;Er|?BqAR2B1i^5?nM*^eela9
zRJbExWYK2R1dxt}nSg6Poi6&Q7-1&Dp)rzV^XXWS2Y<<M6H&bBAw6gSZYPcbh~0ss
zGx0cY3>?yq8y%6?Y2)GH>N|L7s54poM6B*39f{L*<f38e!ssyRY>FkFO_4CVigX$Y
zH<3=o<RWr_@VbYbM2xN>3)U=NbAFeQk7*uVI<G6p!^7<cGEmK<v*2|9=rk;AifE+6
zX*INU#eV@cSo0jtC@T(&E6PfQxJg0;1n&{EQb_p2oPd~HB}72zZaFs%r3dF`Av?gF
zKvegalO>%E$1L6=s;|k(!sTglG7<btUJSaIDZ@kbF`1!e@M81$ml8yC=$q)iB{vO+
zXUWPmhi-xDRgzgK%ZX=7aHd&(H!2FR-$tcj@qgKf5Dfkrl|a;2Bf|0cX+#J{AB};8
zr4MA_pe~nkvhewdL>M+7k;swGg2DTn%jOpnIoN$dA`gc@NJe1v1=(1*{6IR8=a-k+
z|6`)@-S08_eGDY5J|C6GcT>;i>k&Cv)(&wn&&Er&V<Fh?;Q<9s_KF=G#bi&%pw(u~
z?SHmW*(AKSJK6sJlw{${YgQ!DYP)e)+Y^Hs>3qW4JAOi&Uf!Ai-nahC*i?j@ri)L@
zK@>45F#!~6dSU`D$V7!aj{B6w1S}kr7xI{(X$*NB_=LtZOpqboG(_Nu1$iv!6oWib
zIy0IXy=l-12zesxRD?VkU{YcV82I$Wlz&vfiHb?kX43@VCNHMrnol1GpU{|w2{W}Z
z0oi;y7U*<`7}5LoNVRwSfp}Kj?p-IEn|VPoA7Xn!tou2PzH#e3ay`mc6m``!73RRX
z5<8u7Pyn3GILbv$h41vt4)ac~>cEB2)S{;GG>0a(3WCE-50z?AF@mp9KjLc3LVwh%
zf-`JX6|Qy3!LU;WXUG%xQ!&RCx!P|BwQ;(_zAOg?z?bDHcf0dl5zTR52{_NKR1}xW
z^;SzM2A%puc$Xy^{SjC#NaK7DfkeUe7|;-#+&E4QkD^tCN3fI4lvyQK7@F%XfbwP*
zEXETF_wTMRnh$Z3=;$F!wySoaN`I=kJ#9o7#yZT3#Z{XHpx(@kim`?hx&ETtu{^1E
z8znf?jCGj+!Bum~2yeVHFxE;O#m9|WX>x6}T9C#W>mvz+t41<FyzxxISSyhnpW>8W
zD~%GIX~sH9fZ(c;WP~?f85nCLp5n3ECOkFLY9c`JIk+q|T#hag=6f7fYk!vKV>J;V
zc%KiMhV%I#VIHy=y-aeV1!<hIJttvswdf2GZ#+{lw(4k(WXm$n*ek*#u+~p93|}o}
zLU}U_7S<ZeLX$NAdEIw>zK9-U6TV=_`TvOZtENx?pJ`-(qQ&wGv&EZooxRQi?wi@p
z@thU(8LERO0tDY!iiL)2EPurUV}pmXN>QRZ1d!~dpEKgI`;!v?rNq=WV&ChXoEc}V
zG(O6c6(mb_6>qe67N)L&ND&q4H3;J(OlHE8?8e6aN%G^8;5=YvQ8YHFuPD^kI|-M=
zK*TW3{gYXGF1@3?#%Yu_ud``cqTp#8)TPe?vfH5IGEWpCI&M%Mj(?>s9xjwt8=PdL
zUUU$uysQ(=!P3=-r8%_!JTO)rlBLt?vcTln1@nXSzS(8NNdO*iX`L(j7Uxqvz-Y%a
z@yEOGyD(=;IQp1cY$=`Tp@*VRhDr-Vm&CkR<@TZ7%)<D*J6f6Ggr2qlDF3r&fwW%`
z4>TCj$^^%B(7{x&Tz>~3OvOt)7-1qzk|#YCqtHPL6X8=2SeOWt<=}-0S&5rfCnV)K
zs9_>ph65ZXB2E88DE|ZAe1?M{CL(1#AYvk7+C<xAkSqsEOioKbXkt3#**8^e2UASU
zJO42N%Rv?svN9cTF%|LrJ6MJTF{DTj8~M#1a_ad2F51zgyML1g>^F>vUA33ll2{d>
zLpgT>qf^EEbmlKyyZH+;vHaBhgPMH4s%5m`E{I_!8%02%lZjjqkU7F3VVEiOj30+-
z{QMn<b?|H)gHhnz8iz%;nKA|#_`DZ`QRFNZlV$LDl*uk`hKa#AYQBiUZtBJ6<h2<!
zGs9q)G|$3dAAdS)!eSCR2f}I_Go!%+F!9Som~CLRK6P7-oC#pEjP~m}>`&cvqI_<c
z-CS2yGtByxW$vEaQD)R{>m+?>|NGA@yS;z+z3uFs{e}@eF8Lc4#Cj8QKzJWRj0xxj
z$Z@c_24aZFvAZY_xR(&6!Hx69kiesGK@wO8BL{*Rv44xvkjC+1RM64AAP92IKLHWO
z6OhE3#cNLR8pN6A(Mupb3{f7m-yugekIn++qo8SuyaX*_wdqIQlwGps4_I~c2cUlW
z_2Ch+UUDWmRy5tDSl@<b6z{)~>;iohnk_azgoJ_gHOMx>Jq6h!&SxN*MXd@jScEm}
zB!lUs*?&tX%^JpqAz383DJ08KSA=K`>25Gt#kdqy)04d-1lNGY?sSbha)?j1i5|w&
zEKk?)p@!pVi{Ev;T30%Pg<)OMfijE=!D5GihF>`WT+py6tLV>B7A}6fY{ckT96w)D
zwN%L}D_s=Ygr{oTZ?7wFd;*obTQI4I&DftDY=7B*f<&t#1)4nyULokDg260r-`_sq
ziHx)xmQCu!W?x(&(V>bit|V}_zPxSzdyD2cNRJX7le)0k4kFei5Na=Wjb@()f??qw
z+D;2ebkyJi*GZ1#{M`66bXKDU$ZJGE%tqjI7U=|wdr;s+dPwa8Y3@V=Vi}QZAm(>h
z(|@*a{q(kRY1X>X7?7TVF|2-S5M<c&zN@T=LzQ4LJ1U$&JLzGlSz0w?{NN=ClB_Jz
zxP3Kl$bA_QcB-nnP)U&1o2SO%L{j&)I6?PCK+Jho##Q`72j%az!dKuEHBQtgG9c_a
zjVmH@M}-q^C%rRjQ;VV|hegw=hA7aUf`3uWUg{CZr_i0}DZF6%DIB%3yn6>SbocI}
zt>!lubB}ACBtV;1=9*!fVBEUB)3*8k)7Qsvt?e=i1ms-&GShk5alHFH3)f$YJ9CHW
z$I5Km%8KuCwSFkFRpa`XAlNZwm(j;0$1_ss;~GN_9Q6%~UxqzTJA!8yx)h-O-+u{Q
zK-m52W^@U3>Uv_=0hTTfU0>hl_S0=*1_9N2gXKEa;{tjn<VX(pYfdFc=p4P9Gp)P)
zKz*F+dK_8%LKn%yY_rLnYG0f3%zFFvi2l}FEdgd)feY4lzq%P+Iy>S6V%Gtd*In;^
z+V^Hz6UlOv9RWHfbfo(7{M^<MB!5|7euS={*p)D)0j2=H6pr_`>1&E8PFGfF9|R7@
z98@!cJ1FCb{b<g+4@o6^reXy5Ed3a&T|KtKCK$k-uP1j2s+R~v(!ON(1f;zJC$>Xs
z806pLBx!{1e}+1@%LrK5Q$=pjr&2I@Go2LMIzlPto)$Oko(PQjAyHdh(0|MOM2{Qy
zi4ctZF*cu7s<XPJl=q1qH}Vr982PulNbgjsBMNp`i5qiQVhp$wL;)b|NL@neBmpoi
zzmR#pfY`dpA)LE_fuQ*g$=T81!r4iV;WSJCu}T<tJDMQe9kDU~M&Mti`T-iJ9Aqvr
z9TGTOZ(Cb?6-;chQlfB9m4A%#ok_R@cN;4z_XS<!_!k7-bI}p{9H;TdZFRvx%{cqH
z3;=uI>QYO7NRb2jfRsCYq$*`2NrK<&ID83I8O33R!XH*Oo`GRG_bgP$e4Fe05_5pm
zbBfBsu&VJa49ksW!F9c{ll&6O)pf?M{0FV04_Wc5is(;o-6w!XRDWE<8cOek`e;Hs
zG2_+&>8pVKq)u$Rc>m`j+W;nwuWPu<c%IyeGgL`f+v?Z`$^s!z#IF*bq;<nf;(QlQ
zR)X0&ve&^n37x2Huz!0%7jW1#Bz~3cB&{=^E#jbze`yTeQF;{anAC~w5cHX5aS3MY
zOJ8N{CmmzkZEAo#%74AcC5rv;uBMlNjms)4wtug6tuY*3`7x+oVrN1-{%j}jKtu3h
z1*43;)XtFIQRat2ZS-R^dU(Om4r?049u`CKQ_6Zs4~QLH@`r&Yt=I?DjB*diz_BT%
zeWt`68C=fKCXaR>7KZdFJ&Jft>daQ`GK0qJDHtW}rM|fq<A3eKVq?KiO`0!n+)spc
zw$ndHcF1Z!34o#V35j!ZIoZNBH4bulxZj9O+dIH`0Tx5@?@nudw-4UP3g@LMlwx4+
zE@**d)*QHO##JRUPX~Dy^h074;W8?+!<IuTZATY~yeo*y#o?^$-HFna*Lg%MEN6o%
zka;ZBkGR^>bAQ$90p_C>!jW%GJej7y4LdzB@|_TlJWm|`{BbQXYAbSsxvmpQd%W(`
zf%A|UMYy~*yWy#rMhS@3O5lLsWl2USwpw7wRs_qu$<3x?2JBW5l)RO~!GDO8L`M(1
zD|M+k=xKvxqbG{X%U?9QYwat6ksApd@W+i>X)>|Z0)IocA~@zx=B{HZ@~8d%#tVo9
z9{91^COp(u6CB-&;rYMEQMG2_x0>MmRt(4gki}@9<3tOL+lpYBlPya{-z$QWw^BIx
z_RbvpivJ_lubSSUo@s<-=S&=zFS}6uoE7vo{-6n#kAoPFpXp&>o&crT?OIP<Hsj<i
znZ2V6mVbecAU+qbapM`jvSgxF1<yk(hs(l7z33oRd08{`WnE>kY;+|l8HtOKEgx1F
zCL30ekc*sY;M`S)$VW~YHXk%396er78!{^iu<tv)?hKiUvs=>~=uc&CNVnbHeec~`
z#*~c{wU}(3>Y!%xUX|O2_H-x4Tz0f#Gucsb!+&>iAzL2LuR~mrRNOG%d&rg1OIIo`
z=z4Cr?os5*>)G9m3xa|hmzzJF$-DPEE-w6d<9yc$*zDor$Hlc2H~2dYaYTbRAud27
zH{c6e@TeDCilLM@j;As^<D6Utv$*{G4dp;+49~@br58Y<8;4`uoB=xrQZI&oyKy`<
z4u5KLe^B+}^6xjWQvxvro%013qseZt2k0Tm&JW>R00eGS9(N5lA6p&&n`VnDt`hx!
zH%+?6N7O%Ux<ozc#H8GR+a~{L{(G~k<4FG@HfLb;Py6Wou$QnO+HFHe{X2n<>W5u!
zzJ6M~&%*L%lSKnK`S!Q{53She_CWL&tTOZKh}grnS~uQPPr6jaiz?p!@$K8b@KMa3
bdsu2!gzJ8i_PbW~WBdDqndtsE3a;UI#Y1!%

diff --git a/docs_build/build/html/searchindex.js b/docs_build/build/html/searchindex.js
index 59e0280..a5b1b9b 100644
--- a/docs_build/build/html/searchindex.js
+++ b/docs_build/build/html/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"docnames": ["_autosummary/pantheonrl", "_autosummary/pantheonrl.algos", "_autosummary/pantheonrl.algos.adap", "_autosummary/pantheonrl.algos.adap.adap_learn", "_autosummary/pantheonrl.algos.adap.adap_learn.ADAP", "_autosummary/pantheonrl.algos.adap.agent", "_autosummary/pantheonrl.algos.adap.agent.AdapAgent", "_autosummary/pantheonrl.algos.adap.policies", "_autosummary/pantheonrl.algos.adap.policies.AdapPolicy", "_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult", "_autosummary/pantheonrl.algos.adap.policies.MultModel", "_autosummary/pantheonrl.algos.adap.util", "_autosummary/pantheonrl.algos.adap.util.get_L2_sphere", "_autosummary/pantheonrl.algos.adap.util.get_categorical", "_autosummary/pantheonrl.algos.adap.util.get_context_kl_loss", "_autosummary/pantheonrl.algos.adap.util.get_natural_number", "_autosummary/pantheonrl.algos.adap.util.get_positive_square", "_autosummary/pantheonrl.algos.adap.util.get_unit_square", "_autosummary/pantheonrl.algos.adap.util.kl_divergence", "_autosummary/pantheonrl.algos.bc", "_autosummary/pantheonrl.algos.bc.BC", "_autosummary/pantheonrl.algos.bc.BCShell", "_autosummary/pantheonrl.algos.bc.ConstantLRSchedule", "_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress", "_autosummary/pantheonrl.algos.bc.reconstruct_policy", "_autosummary/pantheonrl.algos.modular", "_autosummary/pantheonrl.algos.modular.learn", "_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm", "_autosummary/pantheonrl.algos.modular.policies", "_autosummary/pantheonrl.algos.modular.policies.ModularPolicy", "_autosummary/pantheonrl.common", "_autosummary/pantheonrl.common.agents", "_autosummary/pantheonrl.common.agents.Agent", "_autosummary/pantheonrl.common.agents.DummyAgent", "_autosummary/pantheonrl.common.agents.OffPolicyAgent", "_autosummary/pantheonrl.common.agents.OnPolicyAgent", "_autosummary/pantheonrl.common.agents.RecordingAgentWrapper", "_autosummary/pantheonrl.common.agents.StaticPolicyAgent", "_autosummary/pantheonrl.common.multiagentenv", "_autosummary/pantheonrl.common.multiagentenv.DummyEnv", "_autosummary/pantheonrl.common.multiagentenv.KillEnvException", "_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv", "_autosummary/pantheonrl.common.multiagentenv.PlayerException", "_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv", "_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv", "_autosummary/pantheonrl.common.observation", "_autosummary/pantheonrl.common.observation.Observation", "_autosummary/pantheonrl.common.observation.extract_obs", "_autosummary/pantheonrl.common.observation.extract_partial_obs", "_autosummary/pantheonrl.common.trajsaver", "_autosummary/pantheonrl.common.trajsaver.MultiTransitions", "_autosummary/pantheonrl.common.trajsaver.SimultaneousTransitions", "_autosummary/pantheonrl.common.trajsaver.TransitionsMinimal", "_autosummary/pantheonrl.common.trajsaver.TurnBasedTransitions", "_autosummary/pantheonrl.common.trajsaver.dataclass_quick_asdict", "_autosummary/pantheonrl.common.trajsaver.transitions_collate_fn", "_autosummary/pantheonrl.common.util", "_autosummary/pantheonrl.common.util.FeedForward32Policy", "_autosummary/pantheonrl.common.util.SpaceException", "_autosummary/pantheonrl.common.util.action_from_policy", "_autosummary/pantheonrl.common.util.calculate_space", "_autosummary/pantheonrl.common.util.clip_actions", "_autosummary/pantheonrl.common.util.get_default_obs", "_autosummary/pantheonrl.common.util.get_space_size", "_autosummary/pantheonrl.common.util.resample_noise", "_autosummary/pantheonrl.common.wrappers", "_autosummary/pantheonrl.common.wrappers.HistoryQueue", "_autosummary/pantheonrl.common.wrappers.MultiRecorder", "_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack", "_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder", "_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack", "_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder", "_autosummary/pantheonrl.common.wrappers.frame_wrap", "_autosummary/pantheonrl.common.wrappers.recorder_wrap", "_autosummary/pantheonrl.envs", "_autosummary/pantheonrl.envs.blockworldgym", "_autosummary/pantheonrl.envs.blockworldgym.blockworld", "_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv", "_autosummary/pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent", "_autosummary/pantheonrl.envs.blockworldgym.gridutils", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.drop_random", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.generate_random_world", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.gravity", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.matches", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.place", "_autosummary/pantheonrl.envs.blockworldgym.rendering", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Attr", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Color", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Compound", "_autosummary/pantheonrl.envs.blockworldgym.rendering.FilledPolygon", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Geom", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Image", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Line", "_autosummary/pantheonrl.envs.blockworldgym.rendering.LineStyle", "_autosummary/pantheonrl.envs.blockworldgym.rendering.LineWidth", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Point", "_autosummary/pantheonrl.envs.blockworldgym.rendering.PolyLine", "_autosummary/pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Transform", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Viewer", "_autosummary/pantheonrl.envs.blockworldgym.rendering.get_display", "_autosummary/pantheonrl.envs.blockworldgym.rendering.get_window", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_capsule", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_circle", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_polygon", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_polyline", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.generate_grid_world", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.random_block", "_autosummary/pantheonrl.envs.liargym", "_autosummary/pantheonrl.envs.liargym.liar", "_autosummary/pantheonrl.envs.liargym.liar.LiarDefaultAgent", "_autosummary/pantheonrl.envs.liargym.liar.LiarEnv", "_autosummary/pantheonrl.envs.pettingzoo", "_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper", "_autosummary/pantheonrl.envs.rpsgym", "_autosummary/pantheonrl.envs.rpsgym.rps", "_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv", "_autosummary/pantheonrl.envs.rpsgym.rps.RPSWeightedAgent", "api", "guide/install", "index"], "filenames": ["_autosummary/pantheonrl.rst", "_autosummary/pantheonrl.algos.rst", "_autosummary/pantheonrl.algos.adap.rst", "_autosummary/pantheonrl.algos.adap.adap_learn.rst", "_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.rst", "_autosummary/pantheonrl.algos.adap.agent.rst", "_autosummary/pantheonrl.algos.adap.agent.AdapAgent.rst", "_autosummary/pantheonrl.algos.adap.policies.rst", "_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.rst", "_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult.rst", "_autosummary/pantheonrl.algos.adap.policies.MultModel.rst", "_autosummary/pantheonrl.algos.adap.util.rst", "_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.rst", "_autosummary/pantheonrl.algos.adap.util.get_categorical.rst", "_autosummary/pantheonrl.algos.adap.util.get_context_kl_loss.rst", "_autosummary/pantheonrl.algos.adap.util.get_natural_number.rst", "_autosummary/pantheonrl.algos.adap.util.get_positive_square.rst", "_autosummary/pantheonrl.algos.adap.util.get_unit_square.rst", "_autosummary/pantheonrl.algos.adap.util.kl_divergence.rst", "_autosummary/pantheonrl.algos.bc.rst", "_autosummary/pantheonrl.algos.bc.BC.rst", "_autosummary/pantheonrl.algos.bc.BCShell.rst", "_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.rst", "_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.rst", "_autosummary/pantheonrl.algos.bc.reconstruct_policy.rst", "_autosummary/pantheonrl.algos.modular.rst", "_autosummary/pantheonrl.algos.modular.learn.rst", "_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.rst", "_autosummary/pantheonrl.algos.modular.policies.rst", "_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.rst", "_autosummary/pantheonrl.common.rst", "_autosummary/pantheonrl.common.agents.rst", "_autosummary/pantheonrl.common.agents.Agent.rst", "_autosummary/pantheonrl.common.agents.DummyAgent.rst", "_autosummary/pantheonrl.common.agents.OffPolicyAgent.rst", "_autosummary/pantheonrl.common.agents.OnPolicyAgent.rst", "_autosummary/pantheonrl.common.agents.RecordingAgentWrapper.rst", "_autosummary/pantheonrl.common.agents.StaticPolicyAgent.rst", "_autosummary/pantheonrl.common.multiagentenv.rst", "_autosummary/pantheonrl.common.multiagentenv.DummyEnv.rst", "_autosummary/pantheonrl.common.multiagentenv.KillEnvException.rst", "_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.rst", "_autosummary/pantheonrl.common.multiagentenv.PlayerException.rst", "_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.rst", "_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.rst", "_autosummary/pantheonrl.common.observation.rst", "_autosummary/pantheonrl.common.observation.Observation.rst", "_autosummary/pantheonrl.common.observation.extract_obs.rst", "_autosummary/pantheonrl.common.observation.extract_partial_obs.rst", "_autosummary/pantheonrl.common.trajsaver.rst", "_autosummary/pantheonrl.common.trajsaver.MultiTransitions.rst", "_autosummary/pantheonrl.common.trajsaver.SimultaneousTransitions.rst", "_autosummary/pantheonrl.common.trajsaver.TransitionsMinimal.rst", "_autosummary/pantheonrl.common.trajsaver.TurnBasedTransitions.rst", "_autosummary/pantheonrl.common.trajsaver.dataclass_quick_asdict.rst", "_autosummary/pantheonrl.common.trajsaver.transitions_collate_fn.rst", "_autosummary/pantheonrl.common.util.rst", "_autosummary/pantheonrl.common.util.FeedForward32Policy.rst", "_autosummary/pantheonrl.common.util.SpaceException.rst", "_autosummary/pantheonrl.common.util.action_from_policy.rst", "_autosummary/pantheonrl.common.util.calculate_space.rst", "_autosummary/pantheonrl.common.util.clip_actions.rst", "_autosummary/pantheonrl.common.util.get_default_obs.rst", "_autosummary/pantheonrl.common.util.get_space_size.rst", "_autosummary/pantheonrl.common.util.resample_noise.rst", "_autosummary/pantheonrl.common.wrappers.rst", "_autosummary/pantheonrl.common.wrappers.HistoryQueue.rst", "_autosummary/pantheonrl.common.wrappers.MultiRecorder.rst", "_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.rst", "_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.rst", "_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.rst", "_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.rst", "_autosummary/pantheonrl.common.wrappers.frame_wrap.rst", "_autosummary/pantheonrl.common.wrappers.recorder_wrap.rst", "_autosummary/pantheonrl.envs.rst", "_autosummary/pantheonrl.envs.blockworldgym.rst", "_autosummary/pantheonrl.envs.blockworldgym.blockworld.rst", "_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.rst", "_autosummary/pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.drop_random.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.generate_random_world.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.gravity.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.matches.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.place.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Attr.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Color.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Compound.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.FilledPolygon.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Geom.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Image.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Line.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.LineStyle.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.LineWidth.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Point.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.PolyLine.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Transform.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Viewer.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.get_display.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.get_window.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_capsule.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_circle.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_polygon.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_polyline.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.generate_grid_world.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.random_block.rst", "_autosummary/pantheonrl.envs.liargym.rst", "_autosummary/pantheonrl.envs.liargym.liar.rst", "_autosummary/pantheonrl.envs.liargym.liar.LiarDefaultAgent.rst", "_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.rst", "_autosummary/pantheonrl.envs.pettingzoo.rst", "_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.rst", "_autosummary/pantheonrl.envs.rpsgym.rst", "_autosummary/pantheonrl.envs.rpsgym.rps.rst", "_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.rst", "_autosummary/pantheonrl.envs.rpsgym.rps.RPSWeightedAgent.rst", "api.rst", "guide/install.rst", "index.rst"], "titles": ["pantheonrl", "pantheonrl.algos", "pantheonrl.algos.adap", "pantheonrl.algos.adap.adap_learn", "pantheonrl.algos.adap.adap_learn.ADAP", "pantheonrl.algos.adap.agent", "pantheonrl.algos.adap.agent.AdapAgent", "pantheonrl.algos.adap.policies", "pantheonrl.algos.adap.policies.AdapPolicy", "pantheonrl.algos.adap.policies.AdapPolicyMult", "pantheonrl.algos.adap.policies.MultModel", "pantheonrl.algos.adap.util", "pantheonrl.algos.adap.util.get_L2_sphere", "pantheonrl.algos.adap.util.get_categorical", "pantheonrl.algos.adap.util.get_context_kl_loss", "pantheonrl.algos.adap.util.get_natural_number", "pantheonrl.algos.adap.util.get_positive_square", "pantheonrl.algos.adap.util.get_unit_square", "pantheonrl.algos.adap.util.kl_divergence", "pantheonrl.algos.bc", "pantheonrl.algos.bc.BC", "pantheonrl.algos.bc.BCShell", "pantheonrl.algos.bc.ConstantLRSchedule", "pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress", "pantheonrl.algos.bc.reconstruct_policy", "pantheonrl.algos.modular", "pantheonrl.algos.modular.learn", "pantheonrl.algos.modular.learn.ModularAlgorithm", "pantheonrl.algos.modular.policies", "pantheonrl.algos.modular.policies.ModularPolicy", "pantheonrl.common", "pantheonrl.common.agents", "pantheonrl.common.agents.Agent", "pantheonrl.common.agents.DummyAgent", "pantheonrl.common.agents.OffPolicyAgent", "pantheonrl.common.agents.OnPolicyAgent", "pantheonrl.common.agents.RecordingAgentWrapper", "pantheonrl.common.agents.StaticPolicyAgent", "pantheonrl.common.multiagentenv", "pantheonrl.common.multiagentenv.DummyEnv", "pantheonrl.common.multiagentenv.KillEnvException", "pantheonrl.common.multiagentenv.MultiAgentEnv", "pantheonrl.common.multiagentenv.PlayerException", "pantheonrl.common.multiagentenv.SimultaneousEnv", "pantheonrl.common.multiagentenv.TurnBasedEnv", "pantheonrl.common.observation", "pantheonrl.common.observation.Observation", "pantheonrl.common.observation.extract_obs", "pantheonrl.common.observation.extract_partial_obs", "pantheonrl.common.trajsaver", "pantheonrl.common.trajsaver.MultiTransitions", "pantheonrl.common.trajsaver.SimultaneousTransitions", "pantheonrl.common.trajsaver.TransitionsMinimal", "pantheonrl.common.trajsaver.TurnBasedTransitions", "pantheonrl.common.trajsaver.dataclass_quick_asdict", "pantheonrl.common.trajsaver.transitions_collate_fn", "pantheonrl.common.util", "pantheonrl.common.util.FeedForward32Policy", "pantheonrl.common.util.SpaceException", "pantheonrl.common.util.action_from_policy", "pantheonrl.common.util.calculate_space", "pantheonrl.common.util.clip_actions", "pantheonrl.common.util.get_default_obs", "pantheonrl.common.util.get_space_size", "pantheonrl.common.util.resample_noise", "pantheonrl.common.wrappers", "pantheonrl.common.wrappers.HistoryQueue", "pantheonrl.common.wrappers.MultiRecorder", "pantheonrl.common.wrappers.SimultaneousFrameStack", "pantheonrl.common.wrappers.SimultaneousRecorder", "pantheonrl.common.wrappers.TurnBasedFrameStack", "pantheonrl.common.wrappers.TurnBasedRecorder", "pantheonrl.common.wrappers.frame_wrap", "pantheonrl.common.wrappers.recorder_wrap", "pantheonrl.envs", "pantheonrl.envs.blockworldgym", "pantheonrl.envs.blockworldgym.blockworld", "pantheonrl.envs.blockworldgym.blockworld.BlockEnv", "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent", "pantheonrl.envs.blockworldgym.gridutils", "pantheonrl.envs.blockworldgym.gridutils.drop_random", "pantheonrl.envs.blockworldgym.gridutils.generate_random_world", "pantheonrl.envs.blockworldgym.gridutils.gravity", "pantheonrl.envs.blockworldgym.gridutils.matches", "pantheonrl.envs.blockworldgym.gridutils.place", "pantheonrl.envs.blockworldgym.rendering", "pantheonrl.envs.blockworldgym.rendering.Attr", "pantheonrl.envs.blockworldgym.rendering.Color", "pantheonrl.envs.blockworldgym.rendering.Compound", "pantheonrl.envs.blockworldgym.rendering.FilledPolygon", "pantheonrl.envs.blockworldgym.rendering.Geom", "pantheonrl.envs.blockworldgym.rendering.Image", "pantheonrl.envs.blockworldgym.rendering.Line", "pantheonrl.envs.blockworldgym.rendering.LineStyle", "pantheonrl.envs.blockworldgym.rendering.LineWidth", "pantheonrl.envs.blockworldgym.rendering.Point", "pantheonrl.envs.blockworldgym.rendering.PolyLine", "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer", "pantheonrl.envs.blockworldgym.rendering.Transform", "pantheonrl.envs.blockworldgym.rendering.Viewer", "pantheonrl.envs.blockworldgym.rendering.get_display", "pantheonrl.envs.blockworldgym.rendering.get_window", "pantheonrl.envs.blockworldgym.rendering.make_capsule", "pantheonrl.envs.blockworldgym.rendering.make_circle", "pantheonrl.envs.blockworldgym.rendering.make_polygon", "pantheonrl.envs.blockworldgym.rendering.make_polyline", "pantheonrl.envs.blockworldgym.simpleblockworld", "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent", "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner", "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv", "pantheonrl.envs.blockworldgym.simpleblockworld.generate_grid_world", "pantheonrl.envs.blockworldgym.simpleblockworld.random_block", "pantheonrl.envs.liargym", "pantheonrl.envs.liargym.liar", "pantheonrl.envs.liargym.liar.LiarDefaultAgent", "pantheonrl.envs.liargym.liar.LiarEnv", "pantheonrl.envs.pettingzoo", "pantheonrl.envs.pettingzoo.PettingZooAECWrapper", "pantheonrl.envs.rpsgym", "pantheonrl.envs.rpsgym.rps", "pantheonrl.envs.rpsgym.rps.RPSEnv", "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent", "&lt;no title&gt;", "Installation", "PantheonRL Docs"], "terms": {"i": [0, 4, 6, 8, 9, 10, 20, 27, 29, 32, 33, 34, 35, 36, 37, 39, 40, 41, 43, 44, 46, 52, 54, 57, 58, 60, 66, 68, 69, 70, 71, 77, 78, 99, 107, 108, 109, 114, 115, 117, 120, 121, 123, 124], "packag": [0, 121, 124], "train": [0, 4, 6, 8, 9, 10, 19, 20, 27, 29, 31, 34, 35, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "test": [0, 124], "multi": [0, 8, 9, 10, 29, 32, 41, 57, 124], "agent": [0, 4, 27, 39, 41, 43, 44, 46, 47, 48, 52, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 124], "reinforc": [0, 124], "learn": [0, 4, 6, 19, 20, 22, 29, 32, 33, 34, 35, 37, 39, 78, 107, 108, 114, 121, 124], "environ": [0, 4, 20, 27, 32, 36, 38, 39, 41, 42, 43, 44, 46, 62, 65, 68, 69, 70, 71, 72, 73, 74, 77, 109, 113, 115, 116, 117, 119, 120, 123, 124], "The": [0, 4, 6, 8, 9, 10, 23, 27, 29, 31, 32, 33, 34, 35, 36, 37, 38, 39, 41, 43, 44, 46, 52, 57, 59, 61, 64, 66, 68, 69, 70, 71, 76, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 124], "goal": [0, 124], "provid": [0, 8, 9, 10, 20, 23, 29, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 101, 109, 115, 117, 120, 124], "modular": [0, 124], "extens": [0, 123, 124], "framework": [0, 85, 124], "polici": [0, 4, 14, 19, 20, 21, 24, 27, 31, 34, 35, 37, 39, 41, 43, 44, 57, 59, 61, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "fine": [0, 124], "tune": [0, 124], "ad": [0, 6, 8, 9, 10, 29, 35, 41, 43, 44, 57, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "hoc": [0, 124], "pair": [0, 19, 20, 36, 124], "more": [0, 8, 9, 10, 29, 57, 76, 123, 124], "built": [0, 124], "support": [0, 39, 41, 43, 44, 68, 69, 70, 71, 77, 100, 109, 115, 117, 120, 124], "stabl": [0, 4, 27, 123, 124], "baselines3": [0, 4, 27, 123, 124], "sb3": [0, 31, 39, 47, 124], "allow": [0, 8, 9, 10, 29, 57, 124], "direct": [0, 8, 9, 10, 29, 57, 124], "access": [0, 8, 9, 10, 29, 39, 57, 124], "mani": [0, 124], "": [0, 4, 6, 8, 9, 10, 20, 27, 29, 34, 35, 36, 37, 39, 41, 43, 44, 50, 51, 52, 53, 57, 64, 68, 69, 70, 71, 77, 109, 113, 114, 115, 117, 120, 121, 124], "standard": [0, 29, 31, 33, 38, 124], "rl": [0, 4, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "algorithm": [0, 4, 6, 19, 20, 27, 29, 31, 33, 34, 35, 38, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "ppo": [0, 4, 8, 9, 27, 29, 35, 57, 124], "current": [0, 4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "follow": [0, 8, 9, 10, 29, 31, 38, 57, 123, 124], "decentr": [0, 124], "paradigm": [0, 39, 124], "each": [0, 4, 8, 9, 10, 20, 27, 29, 32, 33, 39, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 124], "equip": [0, 124], "its": [0, 6, 8, 9, 10, 29, 35, 39, 52, 57, 124], "own": [0, 8, 9, 10, 29, 57, 124], "replai": [0, 124], "buffer": [0, 4, 6, 8, 9, 10, 27, 29, 35, 36, 57, 66, 124], "updat": [0, 4, 6, 8, 9, 10, 27, 29, 32, 33, 34, 35, 36, 37, 57, 78, 107, 108, 114, 121, 123, 124], "object": [0, 4, 8, 9, 10, 20, 21, 22, 23, 27, 29, 36, 39, 41, 43, 44, 46, 57, 66, 68, 69, 70, 71, 77, 86, 88, 90, 91, 92, 96, 97, 99, 100, 109, 115, 117, 120, 124], "ar": [0, 6, 8, 9, 10, 29, 32, 33, 34, 35, 39, 41, 42, 43, 44, 46, 52, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 124], "design": [0, 8, 9, 10, 29, 57, 124], "easili": [0, 124], "manipul": [0, 124], "thei": [0, 8, 9, 10, 29, 57, 124], "can": [0, 4, 8, 9, 10, 20, 23, 27, 29, 32, 33, 36, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 123, 124], "save": [0, 4, 6, 8, 9, 10, 20, 24, 27, 29, 35, 49, 57, 66, 124], "load": [0, 4, 8, 9, 20, 24, 27, 29, 57, 124], "plug": [0, 124], "differ": [0, 4, 8, 9, 10, 27, 29, 57, 124], "procedur": [0, 124], "self": [0, 8, 9, 10, 20, 29, 57, 124], "plai": [0, 124], "cross": [0, 124], "round": [0, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "robin": [0, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "finetun": [0, 8, 9, 10, 29, 57, 124], "class": [3, 4, 5, 6, 7, 8, 9, 10, 19, 20, 21, 22, 23, 26, 27, 28, 29, 31, 32, 33, 34, 35, 36, 37, 38, 39, 41, 43, 44, 45, 46, 49, 50, 51, 52, 53, 56, 57, 65, 66, 67, 68, 69, 70, 71, 76, 77, 78, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 106, 107, 108, 109, 113, 114, 115, 116, 117, 119, 120, 121], "env": [4, 8, 9, 10, 27, 29, 38, 39, 41, 43, 44, 57, 62, 68, 69, 70, 71, 72, 73, 124], "learning_r": [4, 27], "0": [4, 8, 9, 10, 15, 20, 22, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 92, 98, 100, 109, 115, 117, 120], "0003": [4, 27], "n_step": [4, 27, 41, 43, 44, 64, 68, 69, 70, 71, 77, 109, 115, 117, 120], "2048": [4, 27], "batch_siz": [4, 27, 52], "64": [4, 27, 57], "n_epoch": [4, 20, 23, 27], "10": [4, 27, 99, 103, 121, 123], "gamma": [4, 27], "99": [4, 27], "gae_lambda": [4, 27], "95": [4, 27], "clip_rang": [4, 27], "2": [4, 8, 9, 10, 27, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "clip_range_vf": [4, 27], "none": [4, 6, 8, 9, 10, 20, 23, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 48, 57, 64, 66, 68, 69, 70, 71, 77, 97, 99, 109, 115, 117, 120], "ent_coef": [4, 27], "vf_coef": [4, 27], "5": [4, 27, 44, 115], "max_grad_norm": [4, 27], "use_sd": [4, 8, 9, 27, 29], "fals": [4, 8, 9, 10, 12, 13, 15, 16, 17, 27, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120], "sde_sample_freq": [4, 27], "1": [4, 8, 9, 10, 15, 27, 29, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 98, 109, 115, 117, 120, 121], "target_kl": [4, 27], "tensorboard_log": [4, 6, 27], "create_eval_env": [4, 27], "policy_kwarg": [4, 20, 27], "verbos": [4, 27], "seed": [4, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "devic": [4, 8, 9, 10, 20, 24, 27, 29, 57], "auto": [4, 8, 9, 20, 24, 27, 29, 57], "_init_setup_model": [4, 27], "true": [4, 6, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 99, 103, 104, 109, 110, 115, 117, 120], "context_loss_coeff": 4, "context_s": [4, 8, 9, 10], "3": [4, 8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123, 124], "num_context_sampl": 4, "context_sampl": 4, "l2": [4, 20], "num_state_sampl": 4, "32": [4, 20, 57], "sourc": [4, 6, 8, 9, 10, 12, 13, 14, 15, 16, 17, 18, 20, 21, 22, 23, 24, 27, 29, 32, 33, 34, 35, 36, 37, 39, 40, 41, 42, 43, 44, 46, 47, 48, 50, 51, 52, 53, 54, 55, 57, 58, 59, 60, 61, 62, 63, 64, 66, 67, 68, 69, 70, 71, 72, 73, 77, 78, 80, 81, 82, 83, 84, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 107, 108, 109, 110, 111, 114, 115, 117, 120, 121], "base": [4, 6, 8, 9, 10, 20, 21, 22, 23, 27, 29, 31, 32, 33, 34, 35, 36, 37, 38, 39, 41, 43, 44, 46, 50, 51, 52, 53, 57, 66, 67, 68, 69, 70, 71, 77, 78, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 107, 108, 109, 114, 115, 117, 120, 121, 123], "onpolicyalgorithm": [4, 6, 27, 35], "borrow": 4, "from": [4, 6, 8, 9, 10, 20, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 49, 51, 52, 53, 57, 59, 68, 69, 70, 71, 77, 78, 99, 101, 107, 108, 109, 114, 115, 117, 120, 121, 123], "proxim": 4, "optim": [4, 8, 9, 10, 20, 29, 57], "clip": [4, 61], "version": [4, 8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 76, 77, 99, 106, 109, 110, 115, 117, 120, 124], "paper": [4, 29, 57, 119, 124], "http": [4, 19, 27, 39, 41, 43, 44, 49, 52, 54, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123, 124], "arxiv": 4, "org": [4, 124], "ab": 4, "1707": 4, "06347": 4, "code": [4, 27, 29, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "thi": [4, 8, 9, 10, 20, 22, 27, 29, 31, 33, 34, 36, 38, 39, 41, 43, 44, 49, 52, 54, 55, 57, 65, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123, 124], "implement": [4, 8, 9, 10, 18, 29, 39, 41, 43, 44, 57, 65, 68, 69, 70, 71, 77, 88, 89, 90, 91, 92, 95, 96, 109, 115, 117, 120], "openai": 4, "spin": 4, "up": [4, 32, 33, 39, 41, 43, 44, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "github": [4, 19, 27, 49, 52, 123, 124], "com": [4, 19, 27, 49, 52, 54, 123, 124], "spinningup": 4, "ikostrikov": 4, "pytorch": [4, 8, 9, 18, 27, 29, 57], "a2c": [4, 8, 9, 27, 29, 35, 57], "acktr": 4, "gail": 4, "baselin": [4, 29], "ppo2": 4, "hill": 4, "introduct": 4, "en": 4, "latest": [4, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123], "html": 4, "param": [4, 8, 9, 10, 18, 29, 57], "model": [4, 6, 8, 9, 10, 14, 27, 29, 34, 35, 57, 64], "us": [4, 6, 8, 9, 10, 20, 23, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 47, 48, 54, 55, 57, 58, 61, 64, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 123], "mlppolici": 4, "cnnpolici": 4, "regist": [4, 8, 9, 10, 29, 57], "gym": [4, 27, 29, 33, 39, 41, 43, 44, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120], "str": [4, 8, 9, 10, 20, 24, 27, 29, 39, 41, 43, 44, 52, 55, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "paramet": [4, 6, 8, 9, 10, 14, 18, 20, 22, 23, 24, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 47, 48, 51, 52, 53, 55, 57, 59, 60, 61, 62, 63, 64, 66, 68, 69, 70, 71, 72, 73, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "float": [4, 6, 8, 9, 10, 20, 22, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "callabl": [4, 8, 9, 10, 20, 22, 23, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "rate": [4, 20, 22, 29], "function": [4, 6, 8, 9, 10, 11, 19, 23, 27, 29, 34, 35, 36, 39, 41, 43, 44, 45, 46, 49, 56, 57, 65, 68, 69, 70, 71, 77, 79, 85, 106, 109, 110, 115, 117, 120], "progress": [4, 23, 27], "remain": 4, "int": [4, 8, 9, 10, 20, 23, 27, 29, 39, 41, 43, 44, 57, 60, 63, 64, 66, 68, 69, 70, 71, 72, 77, 109, 115, 117, 120], "number": [4, 8, 9, 10, 15, 20, 23, 27, 29, 34, 35, 39, 41, 43, 44, 57, 64, 68, 69, 70, 71, 77, 109, 115, 117, 120], "step": [4, 6, 27, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 64, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "run": [4, 8, 9, 10, 20, 24, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 82, 109, 115, 117, 120], "per": [4, 27], "e": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123], "rollout": [4, 27, 52], "size": [4, 8, 9, 10, 20, 29, 57, 66], "n_env": [4, 8, 9, 29, 57], "where": [4, 8, 9, 24, 27, 29, 52, 57, 66, 76], "copi": [4, 8, 9, 10, 29, 54, 57], "parallel": 4, "note": [4, 8, 9, 10, 29, 34, 35, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123], "must": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "greater": 4, "than": [4, 57], "becaus": 4, "advantag": 4, "normal": [4, 8, 9, 27, 29, 57], "see": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 54, 57, 68, 69, 70, 71, 76, 77, 109, 115, 117, 120], "issu": [4, 27], "29372": 4, "minibatch": 4, "epoch": [4, 20, 23], "when": [4, 6, 8, 9, 10, 27, 29, 34, 39, 40, 41, 42, 43, 44, 52, 57, 58, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120], "surrog": 4, "loss": 4, "discount": 4, "factor": 4, "trade": 4, "off": [4, 34], "bia": [4, 8, 9, 10, 29, 57], "v": [4, 89, 96, 99, 104, 105], "varianc": [4, 29], "gener": [4, 19, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 79, 81, 109, 110, 115, 117, 120], "estim": [4, 8, 9, 29, 34, 35, 57], "valu": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 46, 52, 54, 57, 59, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "specif": [4, 27, 29, 31, 39, 41, 43, 44, 68, 69, 70, 71, 77, 100, 101, 109, 115, 117, 120], "If": [4, 8, 9, 10, 20, 27, 29, 32, 33, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "pass": [4, 8, 9, 10, 20, 27, 29, 39, 57], "default": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 57, 62, 66, 68, 69, 70, 71, 74, 77, 78, 107, 109, 114, 115, 117, 120], "done": [4, 6, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "import": 4, "depend": [4, 29, 39, 123], "reward": [4, 6, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "scale": [4, 8, 9, 20, 29, 57, 98], "entropi": [4, 8, 9, 20, 29, 39, 57], "coeffici": 4, "calcul": 4, "maximum": 4, "gradient": [4, 8, 9, 10, 29, 57], "bool": [4, 6, 8, 9, 10, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "whether": [4, 6, 8, 9, 10, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "state": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "explor": [4, 8, 9, 29, 39, 57], "gsde": [4, 29], "instead": [4, 8, 9, 10, 27, 29, 33, 39, 57], "action": [4, 6, 8, 9, 19, 20, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 48, 52, 57, 59, 61, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "nois": [4, 64], "sampl": [4, 8, 9, 20, 27, 29, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "new": [4, 6, 8, 9, 10, 27, 29, 32, 33, 34, 35, 39, 41, 43, 44, 57, 60, 66, 68, 69, 70, 71, 77, 78, 98, 107, 108, 109, 114, 115, 117, 120, 121], "matrix": [4, 8, 9, 29, 57], "everi": [4, 8, 9, 10, 20, 23, 27, 29, 41, 43, 44, 54, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "n": [4, 8, 9, 10, 29, 57, 123], "onli": [4, 8, 9, 10, 27, 29, 41, 43, 44, 47, 57, 68, 69, 70, 71, 77, 100, 109, 115, 117, 120, 123], "begin": [4, 8, 9, 27, 29, 57], "limit": 4, "kl": [4, 18], "diverg": [4, 18], "between": [4, 8, 9, 10, 29, 57], "enough": [4, 29, 34], "prevent": [4, 29], "larg": 4, "213": 4, "cf": [4, 29], "By": [4, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "div": 4, "log": [4, 8, 9, 20, 27, 29, 34, 35, 57], "locat": [4, 8, 9, 27, 29, 57], "tensorboard": [4, 27, 34, 35], "creat": [4, 8, 9, 10, 27, 29, 39, 57, 101, 123], "second": 4, "evalu": [4, 8, 9, 10, 29, 57], "period": 4, "avail": 4, "string": [4, 8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "dict": [4, 8, 9, 10, 20, 23, 27, 29, 39, 41, 43, 44, 52, 54, 55, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ani": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "addit": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "argument": [4, 8, 9, 10, 20, 27, 29, 55, 57], "creation": 4, "level": 4, "output": [4, 8, 9, 10, 29, 36, 57], "info": [4, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "debug": [4, 27], "pseudo": [4, 27], "random": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 81, 109, 110, 111, 115, 117, 120, 121], "cpu": [4, 8, 9, 10, 29, 57], "cuda": [4, 8, 9, 10, 29, 57], "which": [4, 8, 9, 10, 20, 24, 27, 29, 39, 41, 43, 44, 54, 57, 64, 68, 69, 70, 71, 77, 109, 110, 115, 117, 120], "should": [4, 8, 9, 10, 23, 27, 29, 33, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "set": [4, 8, 9, 10, 20, 27, 29, 39, 41, 42, 43, 44, 57, 68, 69, 70, 71, 77, 88, 89, 90, 91, 92, 95, 96, 98, 99, 109, 115, 117, 120], "gpu": [4, 8, 9, 10, 29, 57], "possibl": [4, 8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "build": [4, 8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "network": [4, 8, 9, 10, 27, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "instanc": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 52, 55, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "actorcriticpolici": [4, 8, 27, 37, 57, 59, 61], "vecenv": [4, 27], "method": [4, 6, 8, 9, 10, 20, 21, 22, 23, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 49, 50, 51, 52, 53, 57, 66, 67, 68, 69, 70, 71, 77, 78, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 102, 103, 104, 105, 107, 108, 109, 114, 115, 117, 120, 121], "attribut": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 46, 51, 52, 53, 57, 68, 69, 70, 71, 77, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 98, 109, 115, 117, 120], "collect_rollout": [4, 27], "callback": [4, 20, 23, 27, 34, 35], "rollout_buff": [4, 27], "n_rollout_step": [4, 27], "nearli": 4, "ident": [4, 20, 34, 35], "also": [4, 6, 8, 9, 10, 23, 29, 31, 34, 35, 36, 38, 39, 57, 123], "resampl": [4, 41, 43, 44, 64, 68, 69, 70, 71, 77, 109, 115, 117, 120], "context": [4, 8, 9, 10, 15, 29, 57], "episod": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "collect": [4, 27, 34, 39, 41, 43, 44, 56, 65, 68, 69, 70, 71, 74, 77, 109, 115, 117, 120], "experi": [4, 27, 31], "fill": [4, 27, 66, 68, 70, 89, 99, 103, 104], "rolloutbuff": [4, 27], "term": 4, "here": [4, 20], "refer": [4, 8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123], "free": 4, "notion": 4, "concept": 4, "plan": 4, "call": [4, 6, 8, 9, 10, 20, 22, 23, 27, 29, 32, 33, 34, 35, 36, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 78, 99, 107, 108, 109, 114, 115, 117, 120, 121], "end": [4, 8, 9, 10, 20, 23, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 92, 99, 109, 115, 117, 120], "basecallback": [4, 27], "return": [4, 6, 8, 9, 10, 15, 18, 20, 22, 24, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 47, 48, 50, 51, 52, 53, 54, 55, 57, 59, 60, 61, 62, 63, 64, 66, 67, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "least": [4, 27], "termin": [4, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "prematur": [4, 27], "type": [4, 6, 8, 9, 10, 18, 20, 24, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 45, 47, 48, 49, 50, 51, 52, 53, 54, 55, 57, 59, 60, 61, 63, 64, 66, 67, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_env": [4, 27], "defin": [4, 8, 9, 10, 27, 29, 31, 36, 38, 39, 49, 57, 98], "get_paramet": [4, 8, 9, 10, 27, 29, 57], "includ": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "g": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 88, 89, 90, 91, 92, 95, 96, 109, 115, 117, 120], "critic": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 59, 68, 69, 70, 71, 77, 109, 115, 117, 120], "pi": [4, 27], "map": [4, 8, 9, 10, 20, 27, 29, 55, 57], "name": [4, 8, 9, 10, 20, 27, 29, 34, 35, 39, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_vec_normalize_env": [4, 27], "vecnorm": [4, 27], "wrapper": [4, 18, 27, 33, 36, 39, 41, 43, 44, 77, 109, 115, 116, 117, 120], "exist": [4, 8, 9, 10, 27, 29, 39, 57], "total_timestep": [4, 27], "log_interv": [4, 6, 20, 27, 34, 35], "eval_env": [4, 27], "eval_freq": [4, 27], "n_eval_episod": [4, 27], "tb_log_nam": [4, 6, 27, 34, 35], "eval_log_path": [4, 27], "reset_num_timestep": [4, 27], "total": [4, 27, 115], "list": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "befor": [4, 8, 9, 10, 20, 27, 29, 57], "reset": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "timestep": [4, 27, 34, 35, 39, 41, 43, 44, 52, 64, 68, 69, 70, 71, 77, 82, 109, 115, 117, 120], "progress_bar": [4, 27], "displai": [4, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 97, 99, 100, 101, 109, 115, 117, 120], "bar": [4, 27], "tqdm": [4, 23, 27], "rich": [4, 27], "classmethod": [4, 8, 9, 27, 29, 51, 52, 53, 57], "path": [4, 8, 9, 10, 20, 24, 27, 29, 57], "custom_object": [4, 27], "print_system_info": [4, 27], "force_reset": [4, 27], "kwarg": [4, 6, 8, 9, 10, 27, 29, 34, 35, 57, 101], "zip": [4, 27], "file": [4, 27, 41, 43, 44, 50, 51, 52, 53, 67, 68, 69, 70, 71, 77, 109, 115, 117, 120], "warn": [4, 27, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "re": [4, 8, 9, 10, 27, 29, 57, 99, 103], "scratch": [4, 27], "doe": [4, 27, 37, 39], "place": [4, 8, 9, 10, 20, 27, 29, 57, 111], "For": [4, 8, 9, 10, 27, 29, 39, 57], "an": [4, 6, 8, 9, 10, 20, 23, 27, 29, 31, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 52, 55, 57, 58, 59, 66, 68, 69, 70, 71, 77, 78, 88, 89, 90, 91, 92, 95, 96, 97, 98, 99, 100, 107, 108, 109, 114, 115, 117, 120, 121], "set_paramet": [4, 27], "bufferediobas": [4, 27], "like": [4, 8, 9, 10, 27, 29, 57], "you": [4, 8, 9, 10, 27, 29, 39, 57, 123], "need": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "predict": [4, 8, 9, 27, 29, 57], "ha": [4, 8, 9, 10, 24, 27, 29, 34, 39, 41, 43, 44, 52, 57, 64, 68, 69, 70, 71, 77, 109, 110, 115, 117, 120, 123], "prioriti": [4, 27], "over": [4, 8, 9, 10, 23, 27, 29, 57], "dictionari": [4, 8, 9, 10, 20, 27, 29, 39, 57], "replac": [4, 27, 110], "upon": [4, 27], "variabl": [4, 27], "present": [4, 27, 124], "kei": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "deseri": [4, 27], "correspond": [4, 6, 8, 9, 10, 27, 29, 32, 33, 35, 57, 78, 107, 108, 114, 121], "item": [4, 27, 54], "similar": [4, 8, 9, 10, 27, 29, 57], "kera": [4, 27], "load_model": [4, 27], "have": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 67, 68, 69, 70, 71, 77, 109, 115, 117, 120], "print": [4, 8, 9, 10, 27, 29, 57], "system": [4, 27], "forc": [4, 27], "avoid": [4, 8, 9, 10, 27, 29, 39, 57], "unexpect": [4, 8, 9, 10, 27, 29, 57], "behavior": [4, 8, 9, 10, 20, 27, 29, 57], "dlr": [4, 27], "rm": [4, 27], "597": [4, 27], "extra": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "chang": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "selfbasealgorithm": [4, 27], "properti": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "logger": [4, 27], "getter": [4, 8, 9, 27, 29, 57], "observ": [4, 6, 8, 9, 19, 20, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 52, 57, 59, 60, 62, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "episode_start": [4, 8, 9, 27, 29, 57], "determinist": [4, 8, 9, 10, 27, 29, 57], "get": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 67, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120, 123], "option": [4, 8, 9, 10, 20, 27, 29, 34, 35, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123], "hidden": [4, 8, 9, 27, 29, 57], "sugar": [4, 8, 9, 27, 29, 57], "coat": [4, 8, 9, 27, 29, 57], "handl": [4, 8, 9, 10, 27, 29, 57], "imag": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 97, 109, 115, 117, 120], "ndarrai": [4, 6, 8, 9, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 47, 48, 51, 52, 53, 55, 57, 59, 61, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "input": [4, 8, 9, 10, 27, 29, 57], "tupl": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 48, 57, 59, 68, 69, 70, 71, 77, 109, 115, 117, 120], "last": [4, 6, 8, 9, 27, 29, 32, 33, 35, 57, 66, 78, 107, 108, 114, 121], "recurr": [4, 8, 9, 27, 29, 57], "mask": [4, 8, 9, 27, 29, 46, 48, 57], "rnn": [4, 8, 9, 27, 29, 57], "next": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "exclud": [4, 20, 27, 29], "all": [4, 8, 9, 10, 23, 27, 29, 32, 41, 43, 44, 46, 50, 57, 67, 68, 69, 70, 71, 77, 109, 115, 117, 120], "iter": [4, 8, 9, 10, 20, 23, 27, 29, 57], "ones": [4, 8, 9, 10, 27, 29, 57], "might": [4, 27, 64], "anywai": [4, 27], "set_env": [4, 27], "check": [4, 8, 9, 10, 27, 29, 57, 83], "valid": [4, 27, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "coher": [4, 27], "furthermor": [4, 27], "wrap": [4, 8, 9, 10, 23, 27, 29, 31, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "non": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "vector": [4, 8, 9, 15, 27, 29, 57], "observation_spac": [4, 8, 9, 20, 27, 29, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "action_spac": [4, 8, 9, 20, 27, 29, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "set_logg": [4, 27], "setter": [4, 27], "custom": [4, 8, 9, 10, 27, 29, 39, 55, 57], "overwrit": [4, 27], "constructor": [4, 20, 27, 76, 78], "load_path_or_dict": [4, 27], "exact_match": [4, 27], "given": [4, 6, 8, 9, 10, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 50, 51, 52, 53, 57, 59, 62, 64, 66, 67, 68, 69, 70, 71, 72, 73, 77, 78, 97, 107, 108, 109, 114, 115, 117, 120, 121], "nest": [4, 8, 9, 10, 27, 29, 57], "contain": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "modul": [4, 8, 9, 10, 27, 29, 31, 38, 49, 57, 65, 121], "load_path_or_it": [4, 27], "data": [4, 20, 23, 27, 49, 52, 55], "nn": [4, 8, 9, 10, 27, 29, 57], "torch": [4, 8, 9, 10, 12, 13, 15, 16, 17, 20, 27, 29, 52, 55, 57], "state_dict": [4, 8, 9, 10, 27, 29, 57], "otherwis": [4, 8, 9, 10, 27, 29, 39, 44, 57, 70, 77, 109, 115], "rais": [4, 8, 9, 10, 27, 29, 39, 40, 41, 42, 43, 44, 57, 58, 68, 69, 70, 71, 77, 109, 115, 117, 120], "except": [4, 27, 38, 39, 40, 41, 42, 43, 44, 56, 57, 58, 68, 69, 70, 71, 77, 109, 115, 117, 120], "tensor": [4, 8, 9, 10, 18, 20, 27, 29, 55, 57, 59], "set_random_se": [4, 27], "python": [4, 27, 123], "numpi": [4, 20, 27, 39, 47, 54, 59, 121], "gather": [4, 27], "latent_sync": 6, "onpolicyag": [6, 31, 39], "repres": [6, 34, 35, 36, 37, 39, 41, 43, 44, 59, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_act": [6, 32, 33, 34, 35, 36, 37, 78, 107, 108, 114, 121], "adappolici": [6, 9, 14], "ob": [6, 8, 9, 20, 29, 32, 33, 34, 35, 36, 37, 46, 52, 53, 57, 59, 78, 107, 108, 114, 121], "record": [6, 8, 9, 10, 29, 31, 35, 36, 57, 65, 67, 69, 71, 73], "transit": [6, 8, 9, 10, 20, 29, 31, 35, 36, 50, 51, 52, 53, 57, 67, 69, 71], "It": [6, 8, 9, 10, 29, 31, 35, 38, 39, 57], "full": [6, 18, 35, 46, 47, 48, 77], "take": [6, 8, 9, 29, 32, 33, 34, 35, 36, 37, 44, 57, 78, 107, 108, 114, 121], "add": [6, 8, 9, 10, 29, 32, 33, 34, 35, 41, 43, 44, 57, 66, 68, 69, 70, 71, 77, 78, 88, 89, 90, 91, 92, 95, 96, 99, 107, 108, 109, 114, 115, 117, 120, 121], "inform": [6, 8, 9, 10, 29, 32, 33, 34, 35, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 123], "entri": [6, 8, 9, 10, 29, 35, 57], "most": [6, 32, 33, 35, 39, 41, 43, 44, 49, 66, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "recent": [6, 32, 33, 35, 66, 78, 107, 108, 114, 121], "receiev": [6, 32, 33, 34, 35, 36, 37, 78, 107, 108, 114, 121], "previou": [6, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 52, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "game": [6, 32, 33, 34, 35, 36, 37, 41, 43, 44, 78, 107, 108, 114, 121], "lr_schedul": [8, 9, 29], "net_arch": [8, 9, 10, 29], "activation_fn": [8, 9, 10, 29], "activ": [8, 9, 29, 64, 123], "tanh": [8, 9, 29], "ortho_init": [8, 9, 29], "log_std_init": [8, 9, 29], "full_std": [8, 9, 29], "sde_net_arch": [8, 9, 29], "use_expln": [8, 9, 29], "squash_output": [8, 9, 29, 57], "features_extractor_class": [8, 9, 29], "stable_baselines3": [8, 9, 29, 57], "common": [8, 9, 20, 29, 124], "torch_lay": [8, 9, 29], "flattenextractor": [8, 9, 29], "features_extractor_kwarg": [8, 9, 29], "normalize_imag": [8, 9, 29], "optimizer_class": [8, 9, 29], "adam": [8, 9, 20, 29], "optimizer_kwarg": [8, 9, 20, 29], "initi": [8, 9, 10, 20, 29, 34, 35, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "intern": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "share": [8, 9, 10, 29, 57], "both": [8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "scriptmodul": [8, 9, 10, 29, 57], "space": [8, 9, 20, 29, 39, 41, 43, 44, 57, 58, 60, 61, 63, 68, 69, 70, 71, 77, 109, 115, 117, 120], "basefeaturesextractor": [8, 9, 29, 57], "__call__": [8, 9, 10, 22, 29, 57], "arg": [8, 9, 10, 20, 22, 23, 24, 29, 39, 57], "add_modul": [8, 9, 10, 29, 57], "child": [8, 9, 10, 29, 57], "appli": [8, 9, 10, 19, 20, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "fn": [8, 9, 10, 29, 57], "recurs": [8, 9, 10, 29, 57, 123], "submodul": [8, 9, 10, 29, 57, 123], "children": [8, 9, 10, 29, 57], "well": [8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "typic": [8, 9, 10, 29, 39, 46, 57], "init": [8, 9, 10, 29, 57, 123], "doc": [8, 9, 10, 29, 57, 123], "exampl": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "no_grad": [8, 9, 10, 29, 57], "def": [8, 9, 10, 29, 57], "init_weight": [8, 9, 10, 29, 57], "m": [8, 9, 10, 29, 57], "linear": [8, 9, 10, 29, 57], "weight": [8, 9, 10, 20, 24, 29, 57, 121], "fill_": [8, 9, 10, 29, 57], "net": [8, 9, 10, 29, 57], "sequenti": [8, 9, 10, 29, 57], "in_featur": [8, 9, 10, 29, 57], "out_featur": [8, 9, 10, 29, 57], "requires_grad": [8, 9, 10, 29, 57], "t": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 76, 77, 109, 115, 117, 120], "bfloat16": [8, 9, 10, 29, 57], "cast": [8, 9, 10, 29, 57], "point": [8, 9, 10, 29, 34, 35, 57], "datatyp": [8, 9, 10, 29, 57], "modifi": [8, 9, 10, 29, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "yield": [8, 9, 10, 20, 29, 57], "member": [8, 9, 10, 29, 57], "xdoctest": [8, 9, 10, 29, 57], "skip": [8, 9, 10, 29, 57], "undefin": [8, 9, 10, 29, 57], "var": [8, 9, 10, 29, 57, 110], "buf": [8, 9, 10, 29, 57], "20l": [8, 9, 10, 29, 57], "1l": [8, 9, 10, 29, 57], "5l": [8, 9, 10, 29, 57], "immedi": [8, 9, 10, 20, 29, 57], "move": [8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "make": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "associ": [8, 9, 10, 29, 33, 57], "so": [8, 9, 10, 23, 29, 57], "construct": [8, 9, 10, 20, 29, 33, 41, 43, 44, 51, 52, 53, 57, 68, 69, 70, 71, 72, 73, 77, 102, 103, 104, 105, 109, 115, 117, 120], "live": [8, 9, 10, 29, 57], "while": [8, 9, 10, 29, 57], "being": [8, 9, 10, 29, 57], "specifi": [8, 9, 10, 29, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "infer": [8, 9, 29, 31, 57], "inspect": [8, 9, 29, 57], "fallback": [8, 9, 29, 57], "doubl": [8, 9, 10, 29, 57], "eval": [8, 9, 10, 29, 57], "mode": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "effect": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "certain": [8, 9, 10, 29, 57, 115], "document": [8, 9, 10, 29, 57], "particular": [8, 9, 10, 29, 57], "detail": [8, 9, 10, 29, 57], "affect": [8, 9, 10, 29, 57], "dropout": [8, 9, 10, 29, 57], "batchnorm": [8, 9, 10, 29, 57], "etc": [8, 9, 10, 29, 57, 110], "equival": [8, 9, 10, 29, 57], "local": [8, 9, 10, 29, 57], "disabl": [8, 9, 10, 29, 57, 86, 87, 93, 94, 98], "grad": [8, 9, 10, 29, 57], "comparison": [8, 9, 10, 29, 57], "sever": [8, 9, 10, 29, 57], "mechan": [8, 9, 10, 29, 57], "mai": [8, 9, 10, 29, 34, 35, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "confus": [8, 9, 10, 29, 57], "evaluate_act": [8, 9, 29, 57], "accord": [8, 9, 29, 57], "likelihood": [8, 9, 29, 57], "those": [8, 9, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "distribut": [8, 9, 18, 29, 57], "extra_repr": [8, 9, 10, 29, 57], "represent": [8, 9, 10, 29, 39, 41, 43, 44, 46, 57, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "To": [8, 9, 10, 29, 57, 123], "your": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "singl": [8, 9, 10, 29, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "line": [8, 9, 10, 29, 39, 57, 93, 94, 96, 99], "accept": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "extract_featur": [8, 9, 29, 57], "preprocess": [8, 9, 29, 57], "extract": [8, 9, 29, 41, 43, 44, 47, 48, 54, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "featur": [8, 9, 10, 29, 57, 123], "extractor": [8, 9, 29, 39, 57], "forward": [8, 9, 10, 29, 57], "actor": [8, 9, 29, 36, 57, 59], "probabl": [8, 9, 29, 44, 57], "get_buff": [8, 9, 10, 29, 57], "target": [8, 9, 10, 29, 57], "throw": [8, 9, 10, 29, 57], "error": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "docstr": [8, 9, 10, 29, 57], "get_submodul": [8, 9, 10, 29, 57], "explan": [8, 9, 10, 29, 57], "how": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "correctli": [8, 9, 10, 29, 39, 57], "fulli": [8, 9, 10, 29, 57], "qualifi": [8, 9, 10, 29, 57], "look": [8, 9, 10, 29, 57], "referenc": [8, 9, 10, 29, 57], "attributeerror": [8, 9, 10, 29, 57], "invalid": [8, 9, 10, 29, 57], "resolv": [8, 9, 10, 29, 57], "someth": [8, 9, 10, 29, 57], "get_distribut": [8, 9, 57], "get_extra_st": [8, 9, 10, 29, 57], "set_extra_st": [8, 9, 10, 29, 57], "store": [8, 9, 10, 29, 36, 50, 51, 53, 57], "picklabl": [8, 9, 10, 29, 57], "ensur": [8, 9, 10, 29, 39, 57], "work": [8, 9, 10, 29, 57], "serial": [8, 9, 10, 29, 57], "we": [8, 9, 10, 29, 39, 57, 123], "backward": [8, 9, 10, 29, 57], "compat": [8, 9, 10, 29, 52, 57], "guarante": [8, 9, 10, 29, 57], "other": [8, 9, 10, 20, 29, 57], "break": [8, 9, 10, 29, 57], "pickl": [8, 9, 10, 29, 57], "form": [8, 9, 10, 18, 29, 57], "let": [8, 9, 10, 29, 57], "sai": [8, 9, 10, 29, 57], "A": [8, 9, 10, 22, 23, 29, 36, 39, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "net_b": [8, 9, 10, 29, 57], "net_c": [8, 9, 10, 29, 57], "conv": [8, 9, 10, 29, 57], "conv2d": [8, 9, 10, 29, 57], "16": [8, 9, 10, 29, 57], "33": [8, 9, 10, 29, 57], "kernel_s": [8, 9, 10, 29, 57], "stride": [8, 9, 10, 29, 57], "100": [8, 9, 10, 20, 29, 57], "200": [8, 9, 10, 29, 57], "diagram": [8, 9, 10, 29, 57], "show": [8, 9, 10, 23, 29, 57, 97], "itself": [8, 9, 10, 29, 57], "two": [8, 9, 10, 29, 57, 83], "would": [8, 9, 10, 29, 57], "runtim": [8, 9, 10, 29, 57], "bound": [8, 9, 10, 29, 57, 99], "degre": [8, 9, 10, 29, 57], "queri": [8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "against": [8, 9, 10, 29, 57], "named_modul": [8, 9, 10, 29, 57], "achiev": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "same": [8, 9, 10, 29, 32, 33, 36, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 123], "result": [8, 9, 10, 29, 57], "o": [8, 9, 10, 29, 57], "simpl": [8, 9, 10, 29, 57, 97, 107, 108, 109, 116], "some": [8, 9, 10, 19, 20, 29, 39, 57], "alwai": [8, 9, 10, 29, 57, 120], "abov": [8, 9, 10, 29, 39, 57], "half": [8, 9, 10, 29, 57], "static": [8, 9, 29, 37, 57], "gain": [8, 9, 29, 57], "orthogon": [8, 9, 29, 57], "ipu": [8, 9, 10, 29, 57], "is_vectorized_observ": [8, 9, 29, 57], "transposit": [8, 9, 29, 57], "channel": [8, 9, 29, 57], "first": [8, 9, 29, 39, 41, 43, 44, 57, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "dqn": [8, 9, 29, 34, 57], "epsilon": [8, 9, 29, 57], "greedi": [8, 9, 29, 57], "selfbasemodel": [8, 9, 29, 57], "load_from_vector": [8, 9, 29, 57], "1d": [8, 9, 29, 57], "load_state_dict": [8, 9, 10, 29, 57], "strict": [8, 9, 10, 29, 57], "descend": [8, 9, 10, 29, 57], "exactli": [8, 9, 10, 20, 23, 29, 57], "match": [8, 9, 10, 29, 57], "persist": [8, 9, 10, 29, 57], "strictli": [8, 9, 10, 29, 57], "enforc": [8, 9, 10, 29, 57], "namedtupl": [8, 9, 10, 29, 57], "missing_kei": [8, 9, 10, 29, 57], "unexpected_kei": [8, 9, 10, 29, 57], "field": [8, 9, 10, 29, 52, 54, 57], "miss": [8, 9, 10, 29, 57], "runtimeerror": [8, 9, 10, 29, 57], "make_features_extractor": [8, 9, 29, 57], "helper": [8, 9, 29, 57], "duplic": [8, 9, 10, 29, 57], "onc": [8, 9, 10, 29, 57], "In": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "l": [8, 9, 10, 29, 57], "idx": [8, 9, 10, 29, 57], "enumer": [8, 9, 10, 29, 57], "named_buff": [8, 9, 10, 29, 57], "prefix": [8, 9, 10, 29, 57], "remove_dupl": [8, 9, 10, 29, 57], "prepend": [8, 9, 10, 29, 57], "remov": [8, 9, 10, 29, 39, 57], "running_var": [8, 9, 10, 29, 57], "named_children": [8, 9, 10, 29, 57], "conv4": [8, 9, 10, 29, 57], "conv5": [8, 9, 10, 29, 57], "memo": [8, 9, 10, 29, 57], "alreadi": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "named_paramet": [8, 9, 10, 29, 57], "obs_to_tensor": [8, 9, 29, 57], "convert": [8, 9, 10, 20, 29, 57, 100], "fed": [8, 9, 29, 34, 35, 57], "parameters_to_vector": [8, 9, 29, 57], "predict_valu": [8, 9, 57], "register_backward_hook": [8, 9, 10, 29, 57], "hook": [8, 9, 10, 29, 57], "deprec": [8, 9, 10, 29, 57], "favor": [8, 9, 10, 29, 57], "register_full_backward_hook": [8, 9, 10, 29, 57], "futur": [8, 9, 10, 29, 57], "util": [8, 9, 10, 20, 29, 55], "removablehandl": [8, 9, 10, 29, 57], "register_buff": [8, 9, 10, 29, 57], "consid": [8, 9, 10, 29, 57], "running_mean": [8, 9, 10, 29, 57], "part": [8, 9, 10, 29, 57], "alongsid": [8, 9, 10, 29, 57], "latter": [8, 9, 10, 29, 57], "oper": [8, 9, 10, 29, 57], "ignor": [8, 9, 10, 29, 57], "zero": [8, 9, 10, 29, 57], "num_featur": [8, 9, 10, 29, 57], "register_forward_hook": [8, 9, 10, 29, 57], "with_kwarg": [8, 9, 10, 29, 57], "time": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120], "after": [8, 9, 10, 20, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "comput": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "posit": [8, 9, 10, 29, 57], "keyword": [8, 9, 10, 20, 29, 57], "won": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "inplac": [8, 9, 10, 29, 57], "sinc": [8, 9, 10, 29, 37, 57], "signatur": [8, 9, 10, 29, 57], "expect": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "possibli": [8, 9, 10, 29, 52, 57], "user": [8, 9, 10, 29, 31, 33, 36, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120], "fire": [8, 9, 10, 29, 57], "global": [8, 9, 10, 29, 57], "register_module_forward_hook": [8, 9, 10, 29, 57], "register_forward_pre_hook": [8, 9, 10, 29, 57], "pre": [8, 9, 10, 29, 57], "invok": [8, 9, 10, 29, 57], "either": [8, 9, 10, 20, 29, 57], "unless": [8, 9, 10, 29, 57], "And": [8, 9, 10, 29, 57], "forward_pr": [8, 9, 10, 29, 57], "register_module_forward_pre_hook": [8, 9, 10, 29, 57], "respect": [8, 9, 10, 29, 57], "execut": [8, 9, 10, 29, 57], "grad_input": [8, 9, 10, 29, 57], "grad_output": [8, 9, 10, 29, 57], "subsequ": [8, 9, 10, 29, 57], "technic": [8, 9, 10, 29, 57], "reason": [8, 9, 10, 29, 57], "receiv": [8, 9, 10, 29, 44, 46, 57], "view": [8, 9, 10, 29, 57, 99], "similarli": [8, 9, 10, 29, 57], "caller": [8, 9, 10, 29, 57], "register_module_full_backward_hook": [8, 9, 10, 29, 57], "register_full_backward_pre_hook": [8, 9, 10, 29, 57], "backward_pr": [8, 9, 10, 29, 57], "register_module_full_backward_pre_hook": [8, 9, 10, 29, 57], "register_load_state_dict_post_hook": [8, 9, 10, 29, 57], "post": [8, 9, 10, 29, 57], "incompatible_kei": [8, 9, 10, 29, 57], "consist": [8, 9, 10, 29, 57], "perform": [8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "modif": [8, 9, 10, 29, 57], "thrown": [8, 9, 10, 29, 57], "clear": [8, 9, 10, 29, 57], "out": [8, 9, 10, 29, 57], "register_modul": [8, 9, 10, 29, 57], "alia": [8, 9, 10, 29, 57], "register_paramet": [8, 9, 10, 29, 57], "register_state_dict_pre_hook": [8, 9, 10, 29, 57], "These": [8, 9, 10, 29, 57], "keep_var": [8, 9, 10, 29, 57], "process": [8, 9, 10, 23, 29, 39, 57], "made": [8, 9, 10, 20, 29, 57], "requires_grad_": [8, 9, 10, 29, 57], "autograd": [8, 9, 10, 29, 57], "help": [8, 9, 10, 29, 57], "freez": [8, 9, 10, 29, 57], "individu": [8, 9, 10, 29, 57], "gan": [8, 9, 10, 29, 57], "reset_nois": [8, 9, 29, 57], "scale_act": [8, 9, 29, 57], "rescal": [8, 9, 29, 57], "low": [8, 9, 29, 57], "high": [8, 9, 29, 57], "symmetr": [8, 9, 29, 57], "found": [8, 9, 10, 29, 57], "within": [8, 9, 10, 29, 57, 123], "set_training_mod": [8, 9, 29, 57], "put": [8, 9, 29, 57], "batch": [8, 9, 20, 23, 29, 55, 57], "normalis": [8, 9, 29, 57], "els": [8, 9, 29, 57], "share_memori": [8, 9, 10, 29, 57], "share_memory_": [8, 9, 10, 29, 57], "destin": [8, 9, 10, 29, 57], "whole": [8, 9, 10, 29, 57], "averag": [8, 9, 10, 29, 57], "shallow": [8, 9, 10, 29, 57], "order": [8, 9, 10, 29, 57], "howev": [8, 9, 10, 29, 39, 57], "releas": [8, 9, 10, 29, 57], "pleas": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ordereddict": [8, 9, 10, 29, 57], "compos": [8, 9, 10, 29, 57], "detach": [8, 9, 10, 29, 57], "dtype": [8, 9, 10, 29, 57], "non_block": [8, 9, 10, 29, 57], "memory_format": [8, 9, 10, 29, 57], "channels_last": [8, 9, 10, 29, 57], "Its": [8, 9, 10, 29, 57], "complex": [8, 9, 10, 29, 57, 76], "integr": [8, 9, 10, 29, 57], "unchang": [8, 9, 10, 29, 57], "tri": [8, 9, 10, 29, 57], "asynchron": [8, 9, 10, 29, 57], "host": [8, 9, 10, 29, 57], "pin": [8, 9, 10, 29, 57], "memori": [8, 9, 10, 29, 57], "below": [8, 9, 10, 29, 57], "desir": [8, 9, 10, 29, 57], "whose": [8, 9, 10, 29, 52, 57], "format": [8, 9, 10, 29, 57], "4d": [8, 9, 10, 29, 57], "ignore_w": [8, 9, 10, 29, 57], "1913": [8, 9, 10, 29, 57], "3420": [8, 9, 10, 29, 57], "5113": [8, 9, 10, 29, 57], "2325": [8, 9, 10, 29, 57], "float64": [8, 9, 10, 29, 57], "requir": [8, 9, 10, 29, 52, 57], "torch_doctest_cuda1": [8, 9, 10, 29, 57], "gpu1": [8, 9, 10, 29, 57], "1914": [8, 9, 10, 29, 57], "5112": [8, 9, 10, 29, 57], "2324": [8, 9, 10, 29, 57], "float16": [8, 9, 10, 29, 57], "cdoubl": [8, 9, 10, 29, 57], "3741": [8, 9, 10, 29, 57], "j": [8, 9, 10, 29, 57], "2382": [8, 9, 10, 29, 57], "5593": [8, 9, 10, 29, 57], "4443": [8, 9, 10, 29, 57], "complex128": [8, 9, 10, 29, 57], "6122": [8, 9, 10, 29, 57], "1150": [8, 9, 10, 29, 57], "to_empti": [8, 9, 10, 29, 57], "without": [8, 9, 10, 23, 29, 57], "storag": [8, 9, 10, 29, 57], "dst_type": [8, 9, 10, 29, 57], "unscale_act": [8, 9, 29, 57], "scaled_act": [8, 9, 29, 57], "un": [8, 9, 29, 57], "xpu": [8, 9, 10, 29, 57], "zero_grad": [8, 9, 10, 29, 57], "set_to_non": [8, 9, 10, 29, 57], "under": [8, 9, 10, 29, 57], "feature_dim": 10, "mlpextractor": 10, "latent_polici": 10, "latent_valu": 10, "layer": [10, 57], "ctx_size": [12, 13, 15, 16, 17], "num": [12, 13, 15, 16, 17], "train_batch": 14, "rolloutbuffersampl": 14, "shape": [15, 39, 41, 43, 44, 52, 68, 69, 70, 71, 77, 109, 115, 117, 120], "rang": 15, "dist_tru": 18, "dist_pr": 18, "p": [18, 121], "q": 18, "behaviour": [19, 36], "clone": [19, 20, 123], "supervis": [19, 20], "fix": 19, "dataset": [19, 20, 52, 55], "expert": [19, 20], "demonstr": [19, 124], "humancompatibleai": [19, 49, 52], "imit": [19, 20, 49, 52], "blob": [19, 49, 52], "master": [19, 49, 52], "src": [19, 49, 52], "py": [19, 36, 41, 43, 44, 49, 52, 68, 69, 70, 71, 77, 109, 115, 117, 120, 121], "policy_class": 20, "feedforward32polici": 20, "expert_data": 20, "optimizer_cl": 20, "ent_weight": 20, "001": [20, 22], "l2_weight": 20, "recov": 20, "via": [20, 52], "dataload": [20, 23, 55], "ducktyp": 20, "instanti": [20, 52], "set_expert_data_load": 20, "dure": [20, 34, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "optimis": 20, "decai": 20, "regular": 20, "basepolici": [20, 24, 29], "transitionsminim": [20, 36, 50, 51, 53, 55], "default_batch_s": 20, "automat": [20, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "save_polici": [20, 24], "policy_path": [20, 24], "reload": [20, 24], "reconstruct_polici": 20, "loader": 20, "act": [20, 41, 43, 44, 52, 53, 68, 69, 70, 71, 77, 109, 115, 117, 120], "demand": 20, "dagger": 20, "interact": [20, 38, 124], "arrai": [20, 39, 47, 52, 54, 59, 97, 99], "shuffl": 20, "n_batch": [20, 23], "on_epoch_end": [20, 23], "on_batch_end": [20, 23], "just": [20, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "complet": 20, "through": [20, 23, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "one": [20, 23, 34, 35, 39, 41, 43, 44, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120, 123], "stat": 20, "lr": 22, "constant": [22, 29], "_": 22, "data_load": 23, "loop": 23, "stdout": 23, "__iter__": 23, "reconstruct": 24, "been": [24, 39, 41, 43, 44, 52, 64, 67, 68, 69, 70, 71, 77, 109, 115, 117, 120], "marginal_reg_coef": 27, "On": 27, "ex": [27, 34, 35], "partner_idx": [27, 29], "num_partn": 29, "partner_net_arch": 29, "nomain": 29, "schedul": 29, "could": [29, 61], "th": [29, 52], "deviat": 29, "n_featur": 29, "x": [29, 39, 41, 43, 44, 68, 69, 70, 71, 77, 82, 84, 96, 109, 110, 115, 117, 120], "n_action": 29, "std": 29, "architectur": 29, "latent": 29, "empti": [29, 52, 66], "expln": 29, "exp": 29, "keep": 29, "grow": 29, "too": 29, "fast": 29, "practic": 29, "usual": [29, 39, 41, 43, 44, 52, 68, 69, 70, 71, 77, 109, 115, 117, 120], "squash": 29, "boundari": 29, "divid": 29, "255": 29, "action_mask": [29, 46], "features_extractor": 29, "abstract": [31, 32, 38, 41, 43, 44, 50, 67], "dummyag": 31, "sarl": [31, 33, 38], "face": 31, "offpolicyag": [31, 39], "staticpolicyag": 31, "pure": 31, "recordingagentwrapp": 31, "abc": [32, 41, 43, 44, 50, 67], "multipl": [32, 33, 41, 43, 44, 50, 68, 69, 70, 71, 77, 78, 100, 107, 108, 109, 114, 115, 117, 120, 121], "sum": [32, 33, 78, 107, 108, 114, 121], "flag": [32, 33, 51, 53, 78, 107, 108, 114, 121], "dummy_env": 33, "assum": [33, 39], "interfac": [33, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "directli": [33, 39, 49], "dummi": [33, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "construct_single_agent_interfac": [33, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "multiagentenv": [33, 72, 73, 117], "dummyenv": [33, 38, 40], "working_timestep": [34, 35], "1000": [34, 35], "sac": 34, "offpolicyalgorithm": 34, "interv": [34, 35], "still": [34, 35], "continu": [34, 35, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "beyond": [34, 35], "behav": [34, 35], "correct": [34, 35], "determin": 34, "realag": 36, "simultaneousrecord": 36, "turnbasedrecord": 36, "get_transit": [36, 67, 69, 71], "simpli": 36, "respons": 37, "noth": 37, "simultaneousenv": [38, 51, 65, 68, 69, 120], "turnbasedenv": [38, 53, 65, 70, 71, 77, 109, 115], "conveni": [38, 102, 103, 104, 105], "playerexcept": 38, "killenvexcept": 38, "base_env": [39, 117], "agent_ind": 39, "extract_ob": [39, 41], "basic": 39, "caution": 39, "try": 39, "separ": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "thread": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "manag": 39, "potenti": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "deadlock": 39, "strongli": 39, "advis": 39, "our": 39, "player": [39, 41, 42, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "larger": 39, "usabl": 39, "transform": 39, "partial": [39, 46, 47, 48], "close": [39, 41, 43, 44, 68, 69, 70, 71, 77, 96, 97, 99, 109, 115, 117, 120], "finish": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "necessari": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "clean": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "render": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "window": [39, 41, 43, 44, 68, 69, 70, 71, 77, 99, 101, 109, 115, 117, 120], "databas": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "connect": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_wrapper_attr": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "np_random": [39, 41, 43, 44, 68, 69, 70, 71, 77, 80, 81, 109, 110, 111, 115, 117, 120, 121], "_np_random": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "initialis": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "np": [39, 41, 43, 44, 52, 68, 69, 70, 71, 77, 109, 115, 117, 120], "frame": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "render_mod": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "metadata": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "wai": [39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "gymnasium": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "As": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "known": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "__init__": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 121], "convent": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "human": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "consumpt": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "occur": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "doesn": [39, 41, 43, 44, 68, 69, 70, 71, 76, 77, 109, 115, 117, 120], "rgb_arrai": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "y": [39, 41, 43, 44, 68, 69, 70, 71, 77, 84, 109, 115, 117, 120], "rgb": [39, 41, 43, 44, 68, 69, 70, 71, 77, 97, 99, 109, 115, 117, 120], "pixel": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ansi": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "stringio": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "style": [39, 41, 43, 44, 68, 69, 70, 71, 77, 93, 109, 115, 117, 120], "text": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "newlin": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "escap": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "sequenc": [39, 41, 43, 44, 55, 68, 69, 70, 71, 77, 109, 115, 117, 120], "color": [39, 41, 43, 44, 68, 69, 70, 71, 77, 84, 88, 89, 90, 91, 92, 95, 96, 109, 115, 117, 120], "rgb_array_list": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ansi_list": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "rendercollect": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "pop": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "sure": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "25": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "wa": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "longer": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "rather": [39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "cartpol": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "v1": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "start": [39, 41, 43, 44, 68, 69, 70, 71, 77, 92, 99, 109, 115, 117, 120], "often": 39, "generalis": 39, "about": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "control": 39, "rng": 39, "therefor": 39, "case": 39, "right": [39, 99], "never": 39, "again": 39, "super": 39, "v0": 39, "return_info": 39, "now": 39, "prng": 39, "chosen": 39, "timestamp": 39, "dev": 39, "urandom": 39, "integ": [39, 52], "even": 39, "want": 39, "minim": 39, "obstyp": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "element": [39, 52, 66], "analog": 39, "auxiliari": 39, "complement": 39, "perspect": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ego": [39, 41, 43, 44, 50, 51, 53, 68, 69, 70, 71, 77, 109, 115, 117, 120], "final": [39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "especi": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "turn": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "amount": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "truncat": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "unwrap": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "acttyp": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "kill": 40, "ego_ind": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "n_player": 41, "resample_polici": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "partner": [41, 43, 44, 50, 51, 53, 68, 69, 70, 71, 77, 78, 107, 108, 109, 115, 117, 120], "ego_extractor": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "set_resample_polici": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "choos": [41, 43, 44, 46, 52], "add_partner_ag": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "player_num": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "randomli": [41, 43, 44, 68, 69, 70, 71, 77, 80, 109, 115, 117, 120], "them": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "spawn": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "custom_sarl": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "appropri": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "around": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_dummy_env": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_ego_ind": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "n_reset": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "along": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "alt": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "renderfram": [41, 43, 44, 68, 69, 70, 71, 109, 115, 117, 120], "resample_random": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "resample_round_robin": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "set_ego_extractor": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "set_ego_ind": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "new_ind": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "silence_partner_warn": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "index": [41, 43, 44, 52, 68, 69, 70, 71, 77, 109, 115, 117, 120], "suppress": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "set_partnerid": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "agent_id": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "resample_partn": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "involv": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ego_step": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "alt_step": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "incorrectli": 42, "simultan": [43, 68], "multi_reset": [43, 44, 68, 69, 70, 71, 77, 109, 115, 120], "give": [43, 44, 68, 70, 77, 109, 115, 120], "multi_step": [43, 68, 69, 120], "ego_act": [43, 68, 69, 120], "alt_act": [43, 68, 69, 120], "probegostart": [44, 115], "egofirst": [44, 70, 71, 77, 109, 115], "definit": [45, 113, 115, 119, 120], "relat": [45, 49], "what": 46, "legal": 46, "permit": 46, "mappo": 48, "trajectori": 49, "come": 49, "repo": [49, 52], "get_alt_transit": [50, 51, 53], "get_ego_transit": [50, 51, 53], "write_transit": [50, 51, 52, 53, 67, 69, 71], "write": [50, 51, 52, 53, 67, 69, 71], "egoob": 51, "egoact": 51, "altob": 51, "altact": 51, "multitransit": [51, 53, 67], "read_transit": [51, 52, 53], "obs_spac": [51, 52, 53], "act_spac": [51, 52, 53], "subclass": [52, 88, 89, 90, 91, 92, 95, 96], "flatten_trajectori": 52, "tran": 52, "dataclass": [52, 54], "ith": 52, "slice": 52, "action_shap": 52, "observation_shap": 52, "seen": 52, "preced": 52, "dataclass_inst": 54, "comprehens": 54, "quick": 54, "altern": 54, "asdict": 54, "expens": 54, "undocumentedli": 54, "deep": 54, "stackoverflow": 54, "52229565": 54, "1091722": 54, "collate_fn": 55, "feed": 57, "unit": 57, "irl": 57, "origin": 57, "airl": 57, "illeg": 58, "log_prob": 59, "numfram": [60, 68, 70, 72], "framestack": [60, 65, 66, 72], "raw": 61, "outsid": 61, "basealgorithm": [61, 64], "length": [63, 66, 102], "sde": 64, "defaultelem": 66, "ring": 66, "histori": 66, "queue": 66, "toadd": 66, "overrid": 66, "oldest": 66, "defaultel": 66, "defaultob": [68, 70], "stack": [68, 70], "old": [68, 70], "segment": [68, 70], "multirecord": [69, 71], "simultaneoustransit": 69, "embed": [69, 71], "altenv": 70, "defaultaltob": 70, "turnbasedtransit": 71, "block": [76, 80, 84, 110, 111], "beforehand": 76, "deal": 79, "grid": [79, 83, 84, 111], "world": [79, 81, 110], "graviti": [79, 110], "width": [80, 81, 91, 94, 96, 99, 101, 102], "gridworld": [80, 82, 84, 110], "num_color": [80, 81], "drop": 80, "num_block": [81, 110], "orient": [82, 84], "simul": 82, "grid1": 83, "grid2": 83, "2d": 85, "enabl": [86, 87, 93, 94, 98], "vec4": 87, "attr": [87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 98, 99], "geom": [88, 89, 91, 92, 95, 96, 99], "geometri": [88, 89, 90, 91, 92, 95, 96, 99], "add_attr": [88, 89, 90, 91, 92, 95, 96], "render1": [88, 89, 90, 91, 92, 95, 96], "set_color": [88, 89, 90, 91, 92, 95, 96], "r": [88, 89, 90, 91, 92, 95, 96, 121], "b": [88, 89, 90, 91, 92, 95, 96], "polygon": [89, 99, 104], "fname": 91, "height": [91, 99, 101], "stroke": 94, "set_linewidth": 96, "maxwidth": 97, "500": 97, "viewer": 97, "imshow": 97, "arr": 97, "translat": 98, "rotat": 98, "opengl": 98, "set_rot": 98, "set_scal": 98, "newx": 98, "newi": 98, "set_transl": 98, "earli": 99, "add_geom": 99, "scene": 99, "add_onetim": 99, "draw_circl": 99, "radiu": [99, 103], "30": [99, 103], "draw": 99, "circl": [99, 103], "draw_lin": 99, "draw_polygon": 99, "draw_polylin": 99, "polylin": [99, 105], "get_arrai": 99, "return_rgb_arrai": 99, "set_bound": 99, "left": 99, "bottom": 99, "top": 99, "window_closed_by_us": 99, "spec": 100, "actual": 100, "pyglet": [100, 101], "linux": 100, "Will": [101, 110], "capsul": 102, "simplifi": 106, "blockworld": [106, 107, 108, 109], "easi": 108, "gridlen": 110, "dice": [113, 114, 115], "hand": 115, "bluff": 115, "belief": 115, "pet": [116, 117], "zoo": [116, 117], "aec": 117, "rock": 119, "scissor": 119, "opt": 121, "homebrew": 121, "caskroom": 121, "miniforg": 121, "pantheonrl_dev": 121, "lib": 121, "python3": 121, "site": 121, "recommend": 123, "virtual": 123, "8": 123, "conda": 123, "pantheonrl": 123, "contribut": 123, "git": 123, "stanford": [123, 124], "iliad": [123, 124], "cd": 123, "pip": 123, "directori": 123, "overcooked_extens": 123, "group": 123, "classic": 123, "demo": 124, "aaai": 124, "22": 124, "program": 124, "sarkar2022": 124, "repositori": 124, "13221": 124, "marl": 124, "librari": 124, "dynam": 124, "video": 124, "youtu": 124, "pf3zh_hpo": 124, "inproceed": 124, "sarkar2022pantheonrl": 124, "titl": 124, "author": 124, "sarkar": 124, "bidipta": 124, "talati": 124, "aditi": 124, "shih": 124, "andi": 124, "sadigh": 124, "dorsa": 124, "booktitl": 124, "proceed": 124, "36th": 124, "confer": 124, "artifici": 124, "intellig": 124, "track": 124, "year": 124, "2022": 124, "instal": 124, "prerequisit": 124, "develop": 124, "pettingzoo": 124, "algo": 124}, "objects": {"": [[0, 0, 0, "-", "pantheonrl"]], "pantheonrl": [[1, 0, 0, "-", "algos"], [30, 0, 0, "-", "common"], [74, 0, 0, "-", "envs"]], "pantheonrl.algos": [[2, 0, 0, "-", "adap"], [19, 0, 0, "-", "bc"], [25, 0, 0, "-", "modular"]], "pantheonrl.algos.adap": [[3, 0, 0, "-", "adap_learn"], [5, 0, 0, "-", "agent"], [7, 0, 0, "-", "policies"], [11, 0, 0, "-", "util"]], "pantheonrl.algos.adap.adap_learn": [[4, 1, 1, "", "ADAP"]], "pantheonrl.algos.adap.adap_learn.ADAP": [[4, 2, 1, "", "collect_rollouts"], [4, 2, 1, "", "get_env"], [4, 2, 1, "", "get_parameters"], [4, 2, 1, "", "get_vec_normalize_env"], [4, 2, 1, "", "learn"], [4, 2, 1, "", "load"], [4, 3, 1, "", "logger"], [4, 2, 1, "", "predict"], [4, 2, 1, "", "save"], [4, 2, 1, "", "set_env"], [4, 2, 1, "", "set_logger"], [4, 2, 1, "", "set_parameters"], [4, 2, 1, "", "set_random_seed"], [4, 2, 1, "", "train"]], "pantheonrl.algos.adap.agent": [[6, 1, 1, "", "AdapAgent"]], "pantheonrl.algos.adap.agent.AdapAgent": [[6, 2, 1, "", "get_action"], [6, 2, 1, "", "learn"], [6, 2, 1, "", "update"]], "pantheonrl.algos.adap.policies": [[8, 1, 1, "", "AdapPolicy"], [9, 1, 1, "", "AdapPolicyMult"], [10, 1, 1, "", "MultModel"]], "pantheonrl.algos.adap.policies.AdapPolicy": [[8, 2, 1, "", "__call__"], [8, 2, 1, "", "add_module"], [8, 2, 1, "", "apply"], [8, 2, 1, "", "bfloat16"], [8, 2, 1, "", "buffers"], [8, 2, 1, "", "children"], [8, 2, 1, "", "cpu"], [8, 2, 1, "", "cuda"], [8, 3, 1, "", "device"], [8, 2, 1, "", "double"], [8, 2, 1, "", "eval"], [8, 2, 1, "", "evaluate_actions"], [8, 2, 1, "", "extra_repr"], [8, 2, 1, "", "extract_features"], [8, 2, 1, "", "float"], [8, 2, 1, "", "forward"], [8, 2, 1, "", "get_buffer"], [8, 2, 1, "", "get_distribution"], [8, 2, 1, "", "get_extra_state"], [8, 2, 1, "", "get_parameter"], [8, 2, 1, "", "get_submodule"], [8, 2, 1, "", "half"], [8, 2, 1, "", "init_weights"], [8, 2, 1, "", "ipu"], [8, 2, 1, "", "is_vectorized_observation"], [8, 2, 1, "", "load"], [8, 2, 1, "", "load_from_vector"], [8, 2, 1, "", "load_state_dict"], [8, 2, 1, "", "make_features_extractor"], [8, 2, 1, "", "modules"], [8, 2, 1, "", "named_buffers"], [8, 2, 1, "", "named_children"], [8, 2, 1, "", "named_modules"], [8, 2, 1, "", "named_parameters"], [8, 2, 1, "", "obs_to_tensor"], [8, 2, 1, "", "parameters"], [8, 2, 1, "", "parameters_to_vector"], [8, 2, 1, "", "predict"], [8, 2, 1, "", "predict_values"], [8, 2, 1, "", "register_backward_hook"], [8, 2, 1, "", "register_buffer"], [8, 2, 1, "", "register_forward_hook"], [8, 2, 1, "", "register_forward_pre_hook"], [8, 2, 1, "", "register_full_backward_hook"], [8, 2, 1, "", "register_full_backward_pre_hook"], [8, 2, 1, "", "register_load_state_dict_post_hook"], [8, 2, 1, "", "register_module"], [8, 2, 1, "", "register_parameter"], [8, 2, 1, "", "register_state_dict_pre_hook"], [8, 2, 1, "", "requires_grad_"], [8, 2, 1, "", "reset_noise"], [8, 2, 1, "", "save"], [8, 2, 1, "", "scale_action"], [8, 2, 1, "", "set_extra_state"], [8, 2, 1, "", "set_training_mode"], [8, 2, 1, "", "share_memory"], [8, 3, 1, "", "squash_output"], [8, 2, 1, "", "state_dict"], [8, 2, 1, "", "to"], [8, 2, 1, "", "to_empty"], [8, 2, 1, "", "train"], [8, 2, 1, "", "type"], [8, 2, 1, "", "unscale_action"], [8, 2, 1, "", "xpu"], [8, 2, 1, "", "zero_grad"]], "pantheonrl.algos.adap.policies.AdapPolicyMult": [[9, 2, 1, "", "__call__"], [9, 2, 1, "", "add_module"], [9, 2, 1, "", "apply"], [9, 2, 1, "", "bfloat16"], [9, 2, 1, "", "buffers"], [9, 2, 1, "", "children"], [9, 2, 1, "", "cpu"], [9, 2, 1, "", "cuda"], [9, 3, 1, "", "device"], [9, 2, 1, "", "double"], [9, 2, 1, "", "eval"], [9, 2, 1, "", "evaluate_actions"], [9, 2, 1, "", "extra_repr"], [9, 2, 1, "", "extract_features"], [9, 2, 1, "", "float"], [9, 2, 1, "", "forward"], [9, 2, 1, "", "get_buffer"], [9, 2, 1, "", "get_distribution"], [9, 2, 1, "", "get_extra_state"], [9, 2, 1, "", "get_parameter"], [9, 2, 1, "", "get_submodule"], [9, 2, 1, "", "half"], [9, 2, 1, "", "init_weights"], [9, 2, 1, "", "ipu"], [9, 2, 1, "", "is_vectorized_observation"], [9, 2, 1, "", "load"], [9, 2, 1, "", "load_from_vector"], [9, 2, 1, "", "load_state_dict"], [9, 2, 1, "", "make_features_extractor"], [9, 2, 1, "", "modules"], [9, 2, 1, "", "named_buffers"], [9, 2, 1, "", "named_children"], [9, 2, 1, "", "named_modules"], [9, 2, 1, "", "named_parameters"], [9, 2, 1, "", "obs_to_tensor"], [9, 2, 1, "", "parameters"], [9, 2, 1, "", "parameters_to_vector"], [9, 2, 1, "", "predict"], [9, 2, 1, "", "predict_values"], [9, 2, 1, "", "register_backward_hook"], [9, 2, 1, "", "register_buffer"], [9, 2, 1, "", "register_forward_hook"], [9, 2, 1, "", "register_forward_pre_hook"], [9, 2, 1, "", "register_full_backward_hook"], [9, 2, 1, "", "register_full_backward_pre_hook"], [9, 2, 1, "", "register_load_state_dict_post_hook"], [9, 2, 1, "", "register_module"], [9, 2, 1, "", "register_parameter"], [9, 2, 1, "", "register_state_dict_pre_hook"], [9, 2, 1, "", "requires_grad_"], [9, 2, 1, "", "reset_noise"], [9, 2, 1, "", "save"], [9, 2, 1, "", "scale_action"], [9, 2, 1, "", "set_extra_state"], [9, 2, 1, "", "set_training_mode"], [9, 2, 1, "", "share_memory"], [9, 3, 1, "", "squash_output"], [9, 2, 1, "", "state_dict"], [9, 2, 1, "", "to"], [9, 2, 1, "", "to_empty"], [9, 2, 1, "", "train"], [9, 2, 1, "", "type"], [9, 2, 1, "", "unscale_action"], [9, 2, 1, "", "xpu"], [9, 2, 1, "", "zero_grad"]], "pantheonrl.algos.adap.policies.MultModel": [[10, 2, 1, "", "__call__"], [10, 2, 1, "", "add_module"], [10, 2, 1, "", "apply"], [10, 2, 1, "", "bfloat16"], [10, 2, 1, "", "buffers"], [10, 2, 1, "", "children"], [10, 2, 1, "", "cpu"], [10, 2, 1, "", "cuda"], [10, 2, 1, "", "double"], [10, 2, 1, "", "eval"], [10, 2, 1, "", "extra_repr"], [10, 2, 1, "", "float"], [10, 2, 1, "", "forward"], [10, 2, 1, "", "get_buffer"], [10, 2, 1, "", "get_extra_state"], [10, 2, 1, "", "get_parameter"], [10, 2, 1, "", "get_submodule"], [10, 2, 1, "", "half"], [10, 2, 1, "", "ipu"], [10, 2, 1, "", "load_state_dict"], [10, 2, 1, "", "modules"], [10, 2, 1, "", "named_buffers"], [10, 2, 1, "", "named_children"], [10, 2, 1, "", "named_modules"], [10, 2, 1, "", "named_parameters"], [10, 2, 1, "", "parameters"], [10, 2, 1, "", "register_backward_hook"], [10, 2, 1, "", "register_buffer"], [10, 2, 1, "", "register_forward_hook"], [10, 2, 1, "", "register_forward_pre_hook"], [10, 2, 1, "", "register_full_backward_hook"], [10, 2, 1, "", "register_full_backward_pre_hook"], [10, 2, 1, "", "register_load_state_dict_post_hook"], [10, 2, 1, "", "register_module"], [10, 2, 1, "", "register_parameter"], [10, 2, 1, "", "register_state_dict_pre_hook"], [10, 2, 1, "", "requires_grad_"], [10, 2, 1, "", "set_extra_state"], [10, 2, 1, "", "share_memory"], [10, 2, 1, "", "state_dict"], [10, 2, 1, "", "to"], [10, 2, 1, "", "to_empty"], [10, 2, 1, "", "train"], [10, 2, 1, "", "type"], [10, 2, 1, "", "xpu"], [10, 2, 1, "", "zero_grad"]], "pantheonrl.algos.adap.util": [[12, 4, 1, "", "get_L2_sphere"], [13, 4, 1, "", "get_categorical"], [14, 4, 1, "", "get_context_kl_loss"], [15, 4, 1, "", "get_natural_number"], [16, 4, 1, "", "get_positive_square"], [17, 4, 1, "", "get_unit_square"], [18, 4, 1, "", "kl_divergence"]], "pantheonrl.algos.bc": [[20, 1, 1, "", "BC"], [21, 1, 1, "", "BCShell"], [22, 1, 1, "", "ConstantLRSchedule"], [23, 1, 1, "", "EpochOrBatchIteratorWithProgress"], [24, 4, 1, "", "reconstruct_policy"]], "pantheonrl.algos.bc.BC": [[20, 5, 1, "", "DEFAULT_BATCH_SIZE"], [20, 2, 1, "", "save_policy"], [20, 2, 1, "", "set_expert_data_loader"], [20, 2, 1, "", "train"]], "pantheonrl.algos.bc.ConstantLRSchedule": [[22, 2, 1, "", "__call__"]], "pantheonrl.algos.modular": [[26, 0, 0, "-", "learn"], [28, 0, 0, "-", "policies"]], "pantheonrl.algos.modular.learn": [[27, 1, 1, "", "ModularAlgorithm"]], "pantheonrl.algos.modular.learn.ModularAlgorithm": [[27, 2, 1, "", "collect_rollouts"], [27, 2, 1, "", "get_env"], [27, 2, 1, "", "get_parameters"], [27, 2, 1, "", "get_vec_normalize_env"], [27, 2, 1, "", "learn"], [27, 2, 1, "", "load"], [27, 3, 1, "", "logger"], [27, 2, 1, "", "predict"], [27, 2, 1, "", "save"], [27, 2, 1, "", "set_env"], [27, 2, 1, "", "set_logger"], [27, 2, 1, "", "set_parameters"], [27, 2, 1, "", "set_random_seed"], [27, 2, 1, "", "train"]], "pantheonrl.algos.modular.policies": [[29, 1, 1, "", "ModularPolicy"]], "pantheonrl.algos.modular.policies.ModularPolicy": [[29, 2, 1, "", "__call__"], [29, 2, 1, "", "add_module"], [29, 2, 1, "", "apply"], [29, 2, 1, "", "bfloat16"], [29, 2, 1, "", "buffers"], [29, 2, 1, "", "children"], [29, 2, 1, "", "cpu"], [29, 2, 1, "", "cuda"], [29, 3, 1, "", "device"], [29, 2, 1, "", "double"], [29, 2, 1, "", "eval"], [29, 2, 1, "", "evaluate_actions"], [29, 2, 1, "", "extra_repr"], [29, 2, 1, "", "extract_features"], [29, 2, 1, "", "float"], [29, 2, 1, "", "forward"], [29, 2, 1, "", "get_buffer"], [29, 2, 1, "", "get_extra_state"], [29, 2, 1, "", "get_parameter"], [29, 2, 1, "", "get_submodule"], [29, 2, 1, "", "half"], [29, 2, 1, "", "init_weights"], [29, 2, 1, "", "ipu"], [29, 2, 1, "", "is_vectorized_observation"], [29, 2, 1, "", "load"], [29, 2, 1, "", "load_from_vector"], [29, 2, 1, "", "load_state_dict"], [29, 2, 1, "", "make_features_extractor"], [29, 2, 1, "", "modules"], [29, 2, 1, "", "named_buffers"], [29, 2, 1, "", "named_children"], [29, 2, 1, "", "named_modules"], [29, 2, 1, "", "named_parameters"], [29, 2, 1, "", "obs_to_tensor"], [29, 2, 1, "", "parameters"], [29, 2, 1, "", "parameters_to_vector"], [29, 2, 1, "", "predict"], [29, 2, 1, "", "register_backward_hook"], [29, 2, 1, "", "register_buffer"], [29, 2, 1, "", "register_forward_hook"], [29, 2, 1, "", "register_forward_pre_hook"], [29, 2, 1, "", "register_full_backward_hook"], [29, 2, 1, "", "register_full_backward_pre_hook"], [29, 2, 1, "", "register_load_state_dict_post_hook"], [29, 2, 1, "", "register_module"], [29, 2, 1, "", "register_parameter"], [29, 2, 1, "", "register_state_dict_pre_hook"], [29, 2, 1, "", "requires_grad_"], [29, 2, 1, "", "reset_noise"], [29, 2, 1, "", "save"], [29, 2, 1, "", "scale_action"], [29, 2, 1, "", "set_extra_state"], [29, 2, 1, "", "set_training_mode"], [29, 2, 1, "", "share_memory"], [29, 3, 1, "", "squash_output"], [29, 2, 1, "", "state_dict"], [29, 2, 1, "", "to"], [29, 2, 1, "", "to_empty"], [29, 2, 1, "", "train"], [29, 2, 1, "", "type"], [29, 2, 1, "", "unscale_action"], [29, 2, 1, "", "xpu"], [29, 2, 1, "", "zero_grad"]], "pantheonrl.common": [[31, 0, 0, "-", "agents"], [38, 0, 0, "-", "multiagentenv"], [45, 0, 0, "-", "observation"], [49, 0, 0, "-", "trajsaver"], [56, 0, 0, "-", "util"], [65, 0, 0, "-", "wrappers"]], "pantheonrl.common.agents": [[32, 1, 1, "", "Agent"], [33, 1, 1, "", "DummyAgent"], [34, 1, 1, "", "OffPolicyAgent"], [35, 1, 1, "", "OnPolicyAgent"], [36, 1, 1, "", "RecordingAgentWrapper"], [37, 1, 1, "", "StaticPolicyAgent"]], "pantheonrl.common.agents.Agent": [[32, 2, 1, "", "get_action"], [32, 2, 1, "", "update"]], "pantheonrl.common.agents.DummyAgent": [[33, 2, 1, "", "get_action"], [33, 2, 1, "", "update"]], "pantheonrl.common.agents.OffPolicyAgent": [[34, 2, 1, "", "get_action"], [34, 2, 1, "", "learn"], [34, 2, 1, "", "update"]], "pantheonrl.common.agents.OnPolicyAgent": [[35, 2, 1, "", "get_action"], [35, 2, 1, "", "learn"], [35, 2, 1, "", "update"]], "pantheonrl.common.agents.RecordingAgentWrapper": [[36, 2, 1, "", "get_action"], [36, 2, 1, "", "get_transitions"], [36, 2, 1, "", "update"]], "pantheonrl.common.agents.StaticPolicyAgent": [[37, 2, 1, "", "get_action"], [37, 2, 1, "", "update"]], "pantheonrl.common.multiagentenv": [[39, 1, 1, "", "DummyEnv"], [40, 6, 1, "", "KillEnvException"], [41, 1, 1, "", "MultiAgentEnv"], [42, 6, 1, "", "PlayerException"], [43, 1, 1, "", "SimultaneousEnv"], [44, 1, 1, "", "TurnBasedEnv"]], "pantheonrl.common.multiagentenv.DummyEnv": [[39, 2, 1, "", "close"], [39, 2, 1, "", "get_wrapper_attr"], [39, 3, 1, "", "np_random"], [39, 2, 1, "", "render"], [39, 2, 1, "", "reset"], [39, 2, 1, "", "step"], [39, 3, 1, "", "unwrapped"]], "pantheonrl.common.multiagentenv.MultiAgentEnv": [[41, 3, 1, "", "action_space"], [41, 2, 1, "", "add_partner_agent"], [41, 2, 1, "", "close"], [41, 2, 1, "", "construct_single_agent_interface"], [41, 2, 1, "", "get_dummy_env"], [41, 2, 1, "", "get_ego_ind"], [41, 2, 1, "", "get_wrapper_attr"], [41, 2, 1, "", "n_reset"], [41, 2, 1, "", "n_step"], [41, 3, 1, "", "np_random"], [41, 3, 1, "", "observation_space"], [41, 2, 1, "", "render"], [41, 2, 1, "", "resample_random"], [41, 2, 1, "", "resample_round_robin"], [41, 2, 1, "", "reset"], [41, 2, 1, "", "set_ego_extractor"], [41, 2, 1, "", "set_ego_ind"], [41, 2, 1, "", "set_partnerid"], [41, 2, 1, "", "set_resample_policy"], [41, 2, 1, "", "step"], [41, 3, 1, "", "unwrapped"]], "pantheonrl.common.multiagentenv.SimultaneousEnv": [[43, 3, 1, "", "action_space"], [43, 2, 1, "", "add_partner_agent"], [43, 2, 1, "", "close"], [43, 2, 1, "", "construct_single_agent_interface"], [43, 2, 1, "", "get_dummy_env"], [43, 2, 1, "", "get_ego_ind"], [43, 2, 1, "", "get_wrapper_attr"], [43, 2, 1, "", "multi_reset"], [43, 2, 1, "", "multi_step"], [43, 2, 1, "", "n_reset"], [43, 2, 1, "", "n_step"], [43, 3, 1, "", "np_random"], [43, 3, 1, "", "observation_space"], [43, 2, 1, "", "render"], [43, 2, 1, "", "resample_random"], [43, 2, 1, "", "resample_round_robin"], [43, 2, 1, "", "reset"], [43, 2, 1, "", "set_ego_extractor"], [43, 2, 1, "", "set_ego_ind"], [43, 2, 1, "", "set_partnerid"], [43, 2, 1, "", "set_resample_policy"], [43, 2, 1, "", "step"], [43, 3, 1, "", "unwrapped"]], "pantheonrl.common.multiagentenv.TurnBasedEnv": [[44, 3, 1, "", "action_space"], [44, 2, 1, "", "add_partner_agent"], [44, 2, 1, "", "alt_step"], [44, 2, 1, "", "close"], [44, 2, 1, "", "construct_single_agent_interface"], [44, 2, 1, "", "ego_step"], [44, 2, 1, "", "get_dummy_env"], [44, 2, 1, "", "get_ego_ind"], [44, 2, 1, "", "get_wrapper_attr"], [44, 2, 1, "", "multi_reset"], [44, 2, 1, "", "n_reset"], [44, 2, 1, "", "n_step"], [44, 3, 1, "", "np_random"], [44, 3, 1, "", "observation_space"], [44, 2, 1, "", "render"], [44, 2, 1, "", "resample_random"], [44, 2, 1, "", "resample_round_robin"], [44, 2, 1, "", "reset"], [44, 2, 1, "", "set_ego_extractor"], [44, 2, 1, "", "set_ego_ind"], [44, 2, 1, "", "set_partnerid"], [44, 2, 1, "", "set_resample_policy"], [44, 2, 1, "", "step"], [44, 3, 1, "", "unwrapped"]], "pantheonrl.common.observation": [[46, 1, 1, "", "Observation"], [47, 4, 1, "", "extract_obs"], [48, 4, 1, "", "extract_partial_obs"]], "pantheonrl.common.observation.Observation": [[46, 5, 1, "", "action_mask"], [46, 5, 1, "", "obs"], [46, 5, 1, "", "state"]], "pantheonrl.common.trajsaver": [[50, 1, 1, "", "MultiTransitions"], [51, 1, 1, "", "SimultaneousTransitions"], [52, 1, 1, "", "TransitionsMinimal"], [53, 1, 1, "", "TurnBasedTransitions"], [54, 4, 1, "", "dataclass_quick_asdict"], [55, 4, 1, "", "transitions_collate_fn"]], "pantheonrl.common.trajsaver.MultiTransitions": [[50, 2, 1, "", "get_alt_transitions"], [50, 2, 1, "", "get_ego_transitions"], [50, 2, 1, "", "write_transition"]], "pantheonrl.common.trajsaver.SimultaneousTransitions": [[51, 2, 1, "", "get_alt_transitions"], [51, 2, 1, "", "get_ego_transitions"], [51, 2, 1, "", "read_transition"], [51, 2, 1, "", "write_transition"]], "pantheonrl.common.trajsaver.TransitionsMinimal": [[52, 5, 1, "", "acts"], [52, 5, 1, "", "obs"], [52, 2, 1, "", "read_transition"], [52, 2, 1, "", "write_transition"]], "pantheonrl.common.trajsaver.TurnBasedTransitions": [[53, 2, 1, "", "get_alt_transitions"], [53, 2, 1, "", "get_ego_transitions"], [53, 2, 1, "", "read_transition"], [53, 2, 1, "", "write_transition"]], "pantheonrl.common.util": [[57, 1, 1, "", "FeedForward32Policy"], [58, 6, 1, "", "SpaceException"], [59, 4, 1, "", "action_from_policy"], [60, 4, 1, "", "calculate_space"], [61, 4, 1, "", "clip_actions"], [62, 4, 1, "", "get_default_obs"], [63, 4, 1, "", "get_space_size"], [64, 4, 1, "", "resample_noise"]], "pantheonrl.common.util.FeedForward32Policy": [[57, 2, 1, "", "__call__"], [57, 2, 1, "", "add_module"], [57, 2, 1, "", "apply"], [57, 2, 1, "", "bfloat16"], [57, 2, 1, "", "buffers"], [57, 2, 1, "", "children"], [57, 2, 1, "", "cpu"], [57, 2, 1, "", "cuda"], [57, 3, 1, "", "device"], [57, 2, 1, "", "double"], [57, 2, 1, "", "eval"], [57, 2, 1, "", "evaluate_actions"], [57, 2, 1, "", "extra_repr"], [57, 2, 1, "", "extract_features"], [57, 2, 1, "", "float"], [57, 2, 1, "", "forward"], [57, 2, 1, "", "get_buffer"], [57, 2, 1, "", "get_distribution"], [57, 2, 1, "", "get_extra_state"], [57, 2, 1, "", "get_parameter"], [57, 2, 1, "", "get_submodule"], [57, 2, 1, "", "half"], [57, 2, 1, "", "init_weights"], [57, 2, 1, "", "ipu"], [57, 2, 1, "", "is_vectorized_observation"], [57, 2, 1, "", "load"], [57, 2, 1, "", "load_from_vector"], [57, 2, 1, "", "load_state_dict"], [57, 2, 1, "", "make_features_extractor"], [57, 2, 1, "", "modules"], [57, 2, 1, "", "named_buffers"], [57, 2, 1, "", "named_children"], [57, 2, 1, "", "named_modules"], [57, 2, 1, "", "named_parameters"], [57, 2, 1, "", "obs_to_tensor"], [57, 2, 1, "", "parameters"], [57, 2, 1, "", "parameters_to_vector"], [57, 2, 1, "", "predict"], [57, 2, 1, "", "predict_values"], [57, 2, 1, "", "register_backward_hook"], [57, 2, 1, "", "register_buffer"], [57, 2, 1, "", "register_forward_hook"], [57, 2, 1, "", "register_forward_pre_hook"], [57, 2, 1, "", "register_full_backward_hook"], [57, 2, 1, "", "register_full_backward_pre_hook"], [57, 2, 1, "", "register_load_state_dict_post_hook"], [57, 2, 1, "", "register_module"], [57, 2, 1, "", "register_parameter"], [57, 2, 1, "", "register_state_dict_pre_hook"], [57, 2, 1, "", "requires_grad_"], [57, 2, 1, "", "reset_noise"], [57, 2, 1, "", "save"], [57, 2, 1, "", "scale_action"], [57, 2, 1, "", "set_extra_state"], [57, 2, 1, "", "set_training_mode"], [57, 2, 1, "", "share_memory"], [57, 3, 1, "", "squash_output"], [57, 2, 1, "", "state_dict"], [57, 2, 1, "", "to"], [57, 2, 1, "", "to_empty"], [57, 2, 1, "", "train"], [57, 2, 1, "", "type"], [57, 2, 1, "", "unscale_action"], [57, 2, 1, "", "xpu"], [57, 2, 1, "", "zero_grad"]], "pantheonrl.common.wrappers": [[66, 1, 1, "", "HistoryQueue"], [67, 1, 1, "", "MultiRecorder"], [68, 1, 1, "", "SimultaneousFrameStack"], [69, 1, 1, "", "SimultaneousRecorder"], [70, 1, 1, "", "TurnBasedFrameStack"], [71, 1, 1, "", "TurnBasedRecorder"], [72, 4, 1, "", "frame_wrap"], [73, 4, 1, "", "recorder_wrap"]], "pantheonrl.common.wrappers.HistoryQueue": [[66, 2, 1, "", "add"], [66, 2, 1, "", "reset"]], "pantheonrl.common.wrappers.MultiRecorder": [[67, 2, 1, "", "get_transitions"], [67, 2, 1, "", "write_transition"]], "pantheonrl.common.wrappers.SimultaneousFrameStack": [[68, 3, 1, "", "action_space"], [68, 2, 1, "", "add_partner_agent"], [68, 2, 1, "", "close"], [68, 2, 1, "", "construct_single_agent_interface"], [68, 2, 1, "", "get_dummy_env"], [68, 2, 1, "", "get_ego_ind"], [68, 2, 1, "", "get_wrapper_attr"], [68, 2, 1, "", "multi_reset"], [68, 2, 1, "", "multi_step"], [68, 2, 1, "", "n_reset"], [68, 2, 1, "", "n_step"], [68, 3, 1, "", "np_random"], [68, 3, 1, "", "observation_space"], [68, 2, 1, "", "render"], [68, 2, 1, "", "resample_random"], [68, 2, 1, "", "resample_round_robin"], [68, 2, 1, "", "reset"], [68, 2, 1, "", "set_ego_extractor"], [68, 2, 1, "", "set_ego_ind"], [68, 2, 1, "", "set_partnerid"], [68, 2, 1, "", "set_resample_policy"], [68, 2, 1, "", "step"], [68, 3, 1, "", "unwrapped"]], "pantheonrl.common.wrappers.SimultaneousRecorder": [[69, 3, 1, "", "action_space"], [69, 2, 1, "", "add_partner_agent"], [69, 2, 1, "", "close"], [69, 2, 1, "", "construct_single_agent_interface"], [69, 2, 1, "", "get_dummy_env"], [69, 2, 1, "", "get_ego_ind"], [69, 2, 1, "", "get_transitions"], [69, 2, 1, "", "get_wrapper_attr"], [69, 2, 1, "", "multi_reset"], [69, 2, 1, "", "multi_step"], [69, 2, 1, "", "n_reset"], [69, 2, 1, "", "n_step"], [69, 3, 1, "", "np_random"], [69, 3, 1, "", "observation_space"], [69, 2, 1, "", "render"], [69, 2, 1, "", "resample_random"], [69, 2, 1, "", "resample_round_robin"], [69, 2, 1, "", "reset"], [69, 2, 1, "", "set_ego_extractor"], [69, 2, 1, "", "set_ego_ind"], [69, 2, 1, "", "set_partnerid"], [69, 2, 1, "", "set_resample_policy"], [69, 2, 1, "", "step"], [69, 3, 1, "", "unwrapped"], [69, 2, 1, "", "write_transition"]], "pantheonrl.common.wrappers.TurnBasedFrameStack": [[70, 3, 1, "", "action_space"], [70, 2, 1, "", "add_partner_agent"], [70, 2, 1, "", "alt_step"], [70, 2, 1, "", "close"], [70, 2, 1, "", "construct_single_agent_interface"], [70, 2, 1, "", "ego_step"], [70, 2, 1, "", "get_dummy_env"], [70, 2, 1, "", "get_ego_ind"], [70, 2, 1, "", "get_wrapper_attr"], [70, 2, 1, "", "multi_reset"], [70, 2, 1, "", "n_reset"], [70, 2, 1, "", "n_step"], [70, 3, 1, "", "np_random"], [70, 3, 1, "", "observation_space"], [70, 2, 1, "", "render"], [70, 2, 1, "", "resample_random"], [70, 2, 1, "", "resample_round_robin"], [70, 2, 1, "", "reset"], [70, 2, 1, "", "set_ego_extractor"], [70, 2, 1, "", "set_ego_ind"], [70, 2, 1, "", "set_partnerid"], [70, 2, 1, "", "set_resample_policy"], [70, 2, 1, "", "step"], [70, 3, 1, "", "unwrapped"]], "pantheonrl.common.wrappers.TurnBasedRecorder": [[71, 3, 1, "", "action_space"], [71, 2, 1, "", "add_partner_agent"], [71, 2, 1, "", "alt_step"], [71, 2, 1, "", "close"], [71, 2, 1, "", "construct_single_agent_interface"], [71, 2, 1, "", "ego_step"], [71, 2, 1, "", "get_dummy_env"], [71, 2, 1, "", "get_ego_ind"], [71, 2, 1, "", "get_transitions"], [71, 2, 1, "", "get_wrapper_attr"], [71, 2, 1, "", "multi_reset"], [71, 2, 1, "", "n_reset"], [71, 2, 1, "", "n_step"], [71, 3, 1, "", "np_random"], [71, 3, 1, "", "observation_space"], [71, 2, 1, "", "render"], [71, 2, 1, "", "resample_random"], [71, 2, 1, "", "resample_round_robin"], [71, 2, 1, "", "reset"], [71, 2, 1, "", "set_ego_extractor"], [71, 2, 1, "", "set_ego_ind"], [71, 2, 1, "", "set_partnerid"], [71, 2, 1, "", "set_resample_policy"], [71, 2, 1, "", "step"], [71, 3, 1, "", "unwrapped"], [71, 2, 1, "", "write_transition"]], "pantheonrl.envs": [[75, 0, 0, "-", "blockworldgym"], [112, 0, 0, "-", "liargym"], [116, 0, 0, "-", "pettingzoo"], [118, 0, 0, "-", "rpsgym"]], "pantheonrl.envs.blockworldgym": [[76, 0, 0, "-", "blockworld"], [79, 0, 0, "-", "gridutils"], [85, 0, 0, "-", "rendering"], [106, 0, 0, "-", "simpleblockworld"]], "pantheonrl.envs.blockworldgym.blockworld": [[77, 1, 1, "", "BlockEnv"], [78, 1, 1, "", "DefaultConstructorAgent"]], "pantheonrl.envs.blockworldgym.blockworld.BlockEnv": [[77, 3, 1, "", "action_space"], [77, 2, 1, "", "add_partner_agent"], [77, 2, 1, "", "alt_step"], [77, 2, 1, "", "close"], [77, 2, 1, "", "construct_single_agent_interface"], [77, 2, 1, "", "ego_step"], [77, 2, 1, "", "get_dummy_env"], [77, 2, 1, "", "get_ego_ind"], [77, 2, 1, "", "get_wrapper_attr"], [77, 2, 1, "", "multi_reset"], [77, 2, 1, "", "n_reset"], [77, 2, 1, "", "n_step"], [77, 3, 1, "", "np_random"], [77, 3, 1, "", "observation_space"], [77, 2, 1, "", "render"], [77, 2, 1, "", "resample_random"], [77, 2, 1, "", "resample_round_robin"], [77, 2, 1, "", "reset"], [77, 2, 1, "", "set_ego_extractor"], [77, 2, 1, "", "set_ego_ind"], [77, 2, 1, "", "set_partnerid"], [77, 2, 1, "", "set_resample_policy"], [77, 2, 1, "", "step"], [77, 3, 1, "", "unwrapped"]], "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent": [[78, 2, 1, "", "get_action"], [78, 2, 1, "", "update"]], "pantheonrl.envs.blockworldgym.gridutils": [[80, 4, 1, "", "drop_random"], [81, 4, 1, "", "generate_random_world"], [82, 4, 1, "", "gravity"], [83, 4, 1, "", "matches"], [84, 4, 1, "", "place"]], "pantheonrl.envs.blockworldgym.rendering": [[86, 1, 1, "", "Attr"], [87, 1, 1, "", "Color"], [88, 1, 1, "", "Compound"], [89, 1, 1, "", "FilledPolygon"], [90, 1, 1, "", "Geom"], [91, 1, 1, "", "Image"], [92, 1, 1, "", "Line"], [93, 1, 1, "", "LineStyle"], [94, 1, 1, "", "LineWidth"], [95, 1, 1, "", "Point"], [96, 1, 1, "", "PolyLine"], [97, 1, 1, "", "SimpleImageViewer"], [98, 1, 1, "", "Transform"], [99, 1, 1, "", "Viewer"], [100, 4, 1, "", "get_display"], [101, 4, 1, "", "get_window"], [102, 4, 1, "", "make_capsule"], [103, 4, 1, "", "make_circle"], [104, 4, 1, "", "make_polygon"], [105, 4, 1, "", "make_polyline"]], "pantheonrl.envs.blockworldgym.rendering.Attr": [[86, 2, 1, "", "disable"], [86, 2, 1, "", "enable"]], "pantheonrl.envs.blockworldgym.rendering.Color": [[87, 2, 1, "", "disable"], [87, 2, 1, "", "enable"]], "pantheonrl.envs.blockworldgym.rendering.Compound": [[88, 2, 1, "", "add_attr"], [88, 2, 1, "", "render"], [88, 2, 1, "", "render1"], [88, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.FilledPolygon": [[89, 2, 1, "", "add_attr"], [89, 2, 1, "", "render"], [89, 2, 1, "", "render1"], [89, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.Geom": [[90, 2, 1, "", "add_attr"], [90, 2, 1, "", "render"], [90, 2, 1, "", "render1"], [90, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.Image": [[91, 2, 1, "", "add_attr"], [91, 2, 1, "", "render"], [91, 2, 1, "", "render1"], [91, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.Line": [[92, 2, 1, "", "add_attr"], [92, 2, 1, "", "render"], [92, 2, 1, "", "render1"], [92, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.LineStyle": [[93, 2, 1, "", "disable"], [93, 2, 1, "", "enable"]], "pantheonrl.envs.blockworldgym.rendering.LineWidth": [[94, 2, 1, "", "disable"], [94, 2, 1, "", "enable"]], "pantheonrl.envs.blockworldgym.rendering.Point": [[95, 2, 1, "", "add_attr"], [95, 2, 1, "", "render"], [95, 2, 1, "", "render1"], [95, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.PolyLine": [[96, 2, 1, "", "add_attr"], [96, 2, 1, "", "render"], [96, 2, 1, "", "render1"], [96, 2, 1, "", "set_color"], [96, 2, 1, "", "set_linewidth"]], "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer": [[97, 2, 1, "", "close"], [97, 2, 1, "", "imshow"]], "pantheonrl.envs.blockworldgym.rendering.Transform": [[98, 2, 1, "", "disable"], [98, 2, 1, "", "enable"], [98, 2, 1, "", "set_rotation"], [98, 2, 1, "", "set_scale"], [98, 2, 1, "", "set_translation"]], "pantheonrl.envs.blockworldgym.rendering.Viewer": [[99, 2, 1, "", "add_geom"], [99, 2, 1, "", "add_onetime"], [99, 2, 1, "", "close"], [99, 2, 1, "", "draw_circle"], [99, 2, 1, "", "draw_line"], [99, 2, 1, "", "draw_polygon"], [99, 2, 1, "", "draw_polyline"], [99, 2, 1, "", "get_array"], [99, 2, 1, "", "render"], [99, 2, 1, "", "set_bounds"], [99, 2, 1, "", "window_closed_by_user"]], "pantheonrl.envs.blockworldgym.simpleblockworld": [[107, 1, 1, "", "SBWDefaultAgent"], [108, 1, 1, "", "SBWEasyPartner"], [109, 1, 1, "", "SimpleBlockEnv"], [110, 4, 1, "", "generate_grid_world"], [111, 4, 1, "", "random_block"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent": [[107, 2, 1, "", "get_action"], [107, 2, 1, "", "update"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner": [[108, 2, 1, "", "get_action"], [108, 2, 1, "", "update"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv": [[109, 3, 1, "", "action_space"], [109, 2, 1, "", "add_partner_agent"], [109, 2, 1, "", "alt_step"], [109, 2, 1, "", "close"], [109, 2, 1, "", "construct_single_agent_interface"], [109, 2, 1, "", "ego_step"], [109, 2, 1, "", "get_dummy_env"], [109, 2, 1, "", "get_ego_ind"], [109, 2, 1, "", "get_wrapper_attr"], [109, 2, 1, "", "multi_reset"], [109, 2, 1, "", "n_reset"], [109, 2, 1, "", "n_step"], [109, 3, 1, "", "np_random"], [109, 3, 1, "", "observation_space"], [109, 2, 1, "", "render"], [109, 2, 1, "", "resample_random"], [109, 2, 1, "", "resample_round_robin"], [109, 2, 1, "", "reset"], [109, 2, 1, "", "set_ego_extractor"], [109, 2, 1, "", "set_ego_ind"], [109, 2, 1, "", "set_partnerid"], [109, 2, 1, "", "set_resample_policy"], [109, 2, 1, "", "step"], [109, 3, 1, "", "unwrapped"]], "pantheonrl.envs.liargym": [[113, 0, 0, "-", "liar"]], "pantheonrl.envs.liargym.liar": [[114, 1, 1, "", "LiarDefaultAgent"], [115, 1, 1, "", "LiarEnv"]], "pantheonrl.envs.liargym.liar.LiarDefaultAgent": [[114, 2, 1, "", "get_action"], [114, 2, 1, "", "update"]], "pantheonrl.envs.liargym.liar.LiarEnv": [[115, 3, 1, "", "action_space"], [115, 2, 1, "", "add_partner_agent"], [115, 2, 1, "", "alt_step"], [115, 2, 1, "", "close"], [115, 2, 1, "", "construct_single_agent_interface"], [115, 2, 1, "", "ego_step"], [115, 2, 1, "", "get_dummy_env"], [115, 2, 1, "", "get_ego_ind"], [115, 2, 1, "", "get_wrapper_attr"], [115, 2, 1, "", "multi_reset"], [115, 2, 1, "", "n_reset"], [115, 2, 1, "", "n_step"], [115, 3, 1, "", "np_random"], [115, 3, 1, "", "observation_space"], [115, 2, 1, "", "render"], [115, 2, 1, "", "resample_random"], [115, 2, 1, "", "resample_round_robin"], [115, 2, 1, "", "reset"], [115, 2, 1, "", "set_ego_extractor"], [115, 2, 1, "", "set_ego_ind"], [115, 2, 1, "", "set_partnerid"], [115, 2, 1, "", "set_resample_policy"], [115, 2, 1, "", "step"], [115, 3, 1, "", "unwrapped"]], "pantheonrl.envs.pettingzoo": [[117, 1, 1, "", "PettingZooAECWrapper"]], "pantheonrl.envs.pettingzoo.PettingZooAECWrapper": [[117, 3, 1, "", "action_space"], [117, 2, 1, "", "add_partner_agent"], [117, 2, 1, "", "close"], [117, 2, 1, "", "construct_single_agent_interface"], [117, 2, 1, "", "get_dummy_env"], [117, 2, 1, "", "get_ego_ind"], [117, 2, 1, "", "get_wrapper_attr"], [117, 2, 1, "", "n_reset"], [117, 2, 1, "", "n_step"], [117, 3, 1, "", "np_random"], [117, 3, 1, "", "observation_space"], [117, 2, 1, "", "render"], [117, 2, 1, "", "resample_random"], [117, 2, 1, "", "resample_round_robin"], [117, 2, 1, "", "reset"], [117, 2, 1, "", "set_ego_extractor"], [117, 2, 1, "", "set_ego_ind"], [117, 2, 1, "", "set_partnerid"], [117, 2, 1, "", "set_resample_policy"], [117, 2, 1, "", "step"], [117, 3, 1, "", "unwrapped"]], "pantheonrl.envs.rpsgym": [[119, 0, 0, "-", "rps"]], "pantheonrl.envs.rpsgym.rps": [[120, 1, 1, "", "RPSEnv"], [121, 1, 1, "", "RPSWeightedAgent"]], "pantheonrl.envs.rpsgym.rps.RPSEnv": [[120, 3, 1, "", "action_space"], [120, 2, 1, "", "add_partner_agent"], [120, 2, 1, "", "close"], [120, 2, 1, "", "construct_single_agent_interface"], [120, 2, 1, "", "get_dummy_env"], [120, 2, 1, "", "get_ego_ind"], [120, 2, 1, "", "get_wrapper_attr"], [120, 2, 1, "", "multi_reset"], [120, 2, 1, "", "multi_step"], [120, 2, 1, "", "n_reset"], [120, 2, 1, "", "n_step"], [120, 3, 1, "", "np_random"], [120, 3, 1, "", "observation_space"], [120, 2, 1, "", "render"], [120, 2, 1, "", "resample_random"], [120, 2, 1, "", "resample_round_robin"], [120, 2, 1, "", "reset"], [120, 2, 1, "", "set_ego_extractor"], [120, 2, 1, "", "set_ego_ind"], [120, 2, 1, "", "set_partnerid"], [120, 2, 1, "", "set_resample_policy"], [120, 2, 1, "", "step"], [120, 3, 1, "", "unwrapped"]], "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent": [[121, 2, 1, "", "get_action"], [121, 2, 1, "", "update"]]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method", "3": "py:property", "4": "py:function", "5": "py:attribute", "6": "py:exception"}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"], "3": ["py", "property", "Python property"], "4": ["py", "function", "Python function"], "5": ["py", "attribute", "Python attribute"], "6": ["py", "exception", "Python exception"]}, "titleterms": {"pantheonrl": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 124], "algo": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29], "adap": [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18], "adap_learn": [3, 4], "agent": [5, 6, 31, 32, 33, 34, 35, 36, 37], "adapag": 6, "polici": [7, 8, 9, 10, 28, 29], "adappolici": 8, "adappolicymult": 9, "multmodel": 10, "util": [11, 12, 13, 14, 15, 16, 17, 18, 56, 57, 58, 59, 60, 61, 62, 63, 64], "get_l2_spher": 12, "get_categor": 13, "get_context_kl_loss": 14, "get_natural_numb": 15, "get_positive_squar": 16, "get_unit_squar": 17, "kl_diverg": 18, "bc": [19, 20, 21, 22, 23, 24], "bcshell": 21, "constantlrschedul": 22, "epochorbatchiteratorwithprogress": 23, "reconstruct_polici": 24, "modular": [25, 26, 27, 28, 29], "learn": [26, 27], "modularalgorithm": 27, "modularpolici": 29, "common": [30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73], "dummyag": 33, "offpolicyag": 34, "onpolicyag": 35, "recordingagentwrapp": 36, "staticpolicyag": 37, "multiagentenv": [38, 39, 40, 41, 42, 43, 44], "dummyenv": 39, "killenvexcept": 40, "playerexcept": 42, "simultaneousenv": 43, "turnbasedenv": 44, "observ": [45, 46, 47, 48], "extract_ob": 47, "extract_partial_ob": 48, "trajsav": [49, 50, 51, 52, 53, 54, 55], "multitransit": 50, "simultaneoustransit": 51, "transitionsminim": 52, "turnbasedtransit": 53, "dataclass_quick_asdict": 54, "transitions_collate_fn": 55, "feedforward32polici": 57, "spaceexcept": 58, "action_from_polici": 59, "calculate_spac": 60, "clip_act": 61, "get_default_ob": 62, "get_space_s": 63, "resample_nois": 64, "wrapper": [65, 66, 67, 68, 69, 70, 71, 72, 73], "historyqueu": 66, "multirecord": 67, "simultaneousframestack": 68, "simultaneousrecord": 69, "turnbasedframestack": 70, "turnbasedrecord": 71, "frame_wrap": 72, "recorder_wrap": 73, "env": [74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121], "blockworldgym": [75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111], "blockworld": [76, 77, 78], "blockenv": 77, "defaultconstructorag": 78, "gridutil": [79, 80, 81, 82, 83, 84], "drop_random": 80, "generate_random_world": 81, "graviti": 82, "match": 83, "place": 84, "render": [85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105], "attr": 86, "color": 87, "compound": 88, "filledpolygon": 89, "geom": 90, "imag": 91, "line": 92, "linestyl": 93, "linewidth": 94, "point": 95, "polylin": 96, "simpleimageview": 97, "transform": 98, "viewer": 99, "get_displai": 100, "get_window": 101, "make_capsul": 102, "make_circl": 103, "make_polygon": 104, "make_polylin": 105, "simpleblockworld": [106, 107, 108, 109, 110, 111], "sbwdefaultag": 107, "sbweasypartn": 108, "simpleblockenv": 109, "generate_grid_world": 110, "random_block": 111, "liargym": [112, 113, 114, 115], "liar": [113, 114, 115], "liardefaultag": 114, "liarenv": 115, "pettingzoo": [116, 117, 123], "pettingzooaecwrapp": 117, "rpsgym": [118, 119, 120, 121], "rp": [119, 120, 121], "rpsenv": 120, "rpsweightedag": 121, "instal": 123, "prerequisit": 123, "develop": 123, "version": 123, "overcook": 123, "doc": 124, "citat": 124, "user": 124, "guid": 124, "api": 124, "refer": 124}, "envversion": {"sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.intersphinx": 1, "sphinx.ext.viewcode": 1, "sphinx": 60}, "alltitles": {"pantheonrl": [[0, "pantheonrl"]], "pantheonrl.algos": [[1, "pantheonrl-algos"]], "pantheonrl.algos.adap": [[2, "pantheonrl-algos-adap"]], "pantheonrl.algos.adap.adap_learn": [[3, "module-pantheonrl.algos.adap.adap_learn"]], "pantheonrl.algos.adap.adap_learn.ADAP": [[4, "pantheonrl-algos-adap-adap-learn-adap"]], "pantheonrl.algos.adap.agent": [[5, "module-pantheonrl.algos.adap.agent"]], "pantheonrl.algos.adap.agent.AdapAgent": [[6, "pantheonrl-algos-adap-agent-adapagent"]], "pantheonrl.algos.adap.policies": [[7, "module-pantheonrl.algos.adap.policies"]], "pantheonrl.algos.adap.policies.AdapPolicy": [[8, "pantheonrl-algos-adap-policies-adappolicy"]], "pantheonrl.algos.adap.policies.AdapPolicyMult": [[9, "pantheonrl-algos-adap-policies-adappolicymult"]], "pantheonrl.algos.adap.policies.MultModel": [[10, "pantheonrl-algos-adap-policies-multmodel"]], "pantheonrl.algos.adap.util": [[11, "module-pantheonrl.algos.adap.util"]], "pantheonrl.algos.adap.util.get_L2_sphere": [[12, "pantheonrl-algos-adap-util-get-l2-sphere"]], "pantheonrl.algos.adap.util.get_categorical": [[13, "pantheonrl-algos-adap-util-get-categorical"]], "pantheonrl.algos.adap.util.get_context_kl_loss": [[14, "pantheonrl-algos-adap-util-get-context-kl-loss"]], "pantheonrl.algos.adap.util.get_natural_number": [[15, "pantheonrl-algos-adap-util-get-natural-number"]], "pantheonrl.algos.adap.util.get_positive_square": [[16, "pantheonrl-algos-adap-util-get-positive-square"]], "pantheonrl.algos.adap.util.get_unit_square": [[17, "pantheonrl-algos-adap-util-get-unit-square"]], "pantheonrl.algos.adap.util.kl_divergence": [[18, "pantheonrl-algos-adap-util-kl-divergence"]], "pantheonrl.algos.bc": [[19, "module-pantheonrl.algos.bc"]], "pantheonrl.algos.bc.BC": [[20, "pantheonrl-algos-bc-bc"]], "pantheonrl.algos.bc.BCShell": [[21, "pantheonrl-algos-bc-bcshell"]], "pantheonrl.algos.bc.ConstantLRSchedule": [[22, "pantheonrl-algos-bc-constantlrschedule"]], "pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress": [[23, "pantheonrl-algos-bc-epochorbatchiteratorwithprogress"]], "pantheonrl.algos.bc.reconstruct_policy": [[24, "pantheonrl-algos-bc-reconstruct-policy"]], "pantheonrl.algos.modular": [[25, "pantheonrl-algos-modular"]], "pantheonrl.algos.modular.learn": [[26, "module-pantheonrl.algos.modular.learn"]], "pantheonrl.algos.modular.learn.ModularAlgorithm": [[27, "pantheonrl-algos-modular-learn-modularalgorithm"]], "pantheonrl.algos.modular.policies": [[28, "module-pantheonrl.algos.modular.policies"]], "pantheonrl.algos.modular.policies.ModularPolicy": [[29, "pantheonrl-algos-modular-policies-modularpolicy"]], "pantheonrl.common": [[30, "pantheonrl-common"]], "pantheonrl.common.agents": [[31, "module-pantheonrl.common.agents"]], "pantheonrl.common.agents.Agent": [[32, "pantheonrl-common-agents-agent"]], "pantheonrl.common.agents.DummyAgent": [[33, "pantheonrl-common-agents-dummyagent"]], "pantheonrl.common.agents.OffPolicyAgent": [[34, "pantheonrl-common-agents-offpolicyagent"]], "pantheonrl.common.agents.OnPolicyAgent": [[35, "pantheonrl-common-agents-onpolicyagent"]], "pantheonrl.common.agents.RecordingAgentWrapper": [[36, "pantheonrl-common-agents-recordingagentwrapper"]], "pantheonrl.common.agents.StaticPolicyAgent": [[37, "pantheonrl-common-agents-staticpolicyagent"]], "pantheonrl.common.multiagentenv": [[38, "module-pantheonrl.common.multiagentenv"]], "pantheonrl.common.multiagentenv.DummyEnv": [[39, "pantheonrl-common-multiagentenv-dummyenv"]], "pantheonrl.common.multiagentenv.KillEnvException": [[40, "pantheonrl-common-multiagentenv-killenvexception"]], "pantheonrl.common.multiagentenv.MultiAgentEnv": [[41, "pantheonrl-common-multiagentenv-multiagentenv"]], "pantheonrl.common.multiagentenv.PlayerException": [[42, "pantheonrl-common-multiagentenv-playerexception"]], "pantheonrl.common.multiagentenv.SimultaneousEnv": [[43, "pantheonrl-common-multiagentenv-simultaneousenv"]], "pantheonrl.common.multiagentenv.TurnBasedEnv": [[44, "pantheonrl-common-multiagentenv-turnbasedenv"]], "pantheonrl.common.observation": [[45, "module-pantheonrl.common.observation"]], "pantheonrl.common.observation.Observation": [[46, "pantheonrl-common-observation-observation"]], "pantheonrl.common.observation.extract_obs": [[47, "pantheonrl-common-observation-extract-obs"]], "pantheonrl.common.observation.extract_partial_obs": [[48, "pantheonrl-common-observation-extract-partial-obs"]], "pantheonrl.common.trajsaver": [[49, "module-pantheonrl.common.trajsaver"]], "pantheonrl.common.trajsaver.MultiTransitions": [[50, "pantheonrl-common-trajsaver-multitransitions"]], "pantheonrl.common.trajsaver.SimultaneousTransitions": [[51, "pantheonrl-common-trajsaver-simultaneoustransitions"]], "pantheonrl.common.trajsaver.TransitionsMinimal": [[52, "pantheonrl-common-trajsaver-transitionsminimal"]], "pantheonrl.common.trajsaver.TurnBasedTransitions": [[53, "pantheonrl-common-trajsaver-turnbasedtransitions"]], "pantheonrl.common.trajsaver.dataclass_quick_asdict": [[54, "pantheonrl-common-trajsaver-dataclass-quick-asdict"]], "pantheonrl.common.trajsaver.transitions_collate_fn": [[55, "pantheonrl-common-trajsaver-transitions-collate-fn"]], "pantheonrl.common.util": [[56, "module-pantheonrl.common.util"]], "pantheonrl.common.util.FeedForward32Policy": [[57, "pantheonrl-common-util-feedforward32policy"]], "pantheonrl.common.util.SpaceException": [[58, "pantheonrl-common-util-spaceexception"]], "pantheonrl.common.util.action_from_policy": [[59, "pantheonrl-common-util-action-from-policy"]], "pantheonrl.common.util.calculate_space": [[60, "pantheonrl-common-util-calculate-space"]], "pantheonrl.common.util.clip_actions": [[61, "pantheonrl-common-util-clip-actions"]], "pantheonrl.common.util.get_default_obs": [[62, "pantheonrl-common-util-get-default-obs"]], "pantheonrl.common.util.get_space_size": [[63, "pantheonrl-common-util-get-space-size"]], "pantheonrl.common.util.resample_noise": [[64, "pantheonrl-common-util-resample-noise"]], "pantheonrl.common.wrappers": [[65, "module-pantheonrl.common.wrappers"]], "pantheonrl.common.wrappers.HistoryQueue": [[66, "pantheonrl-common-wrappers-historyqueue"]], "pantheonrl.common.wrappers.MultiRecorder": [[67, "pantheonrl-common-wrappers-multirecorder"]], "pantheonrl.common.wrappers.SimultaneousFrameStack": [[68, "pantheonrl-common-wrappers-simultaneousframestack"]], "pantheonrl.common.wrappers.SimultaneousRecorder": [[69, "pantheonrl-common-wrappers-simultaneousrecorder"]], "pantheonrl.common.wrappers.TurnBasedFrameStack": [[70, "pantheonrl-common-wrappers-turnbasedframestack"]], "pantheonrl.common.wrappers.TurnBasedRecorder": [[71, "pantheonrl-common-wrappers-turnbasedrecorder"]], "pantheonrl.common.wrappers.frame_wrap": [[72, "pantheonrl-common-wrappers-frame-wrap"]], "pantheonrl.common.wrappers.recorder_wrap": [[73, "pantheonrl-common-wrappers-recorder-wrap"]], "pantheonrl.envs": [[74, "pantheonrl-envs"]], "pantheonrl.envs.blockworldgym": [[75, "pantheonrl-envs-blockworldgym"]], "pantheonrl.envs.blockworldgym.blockworld": [[76, "module-pantheonrl.envs.blockworldgym.blockworld"]], "pantheonrl.envs.blockworldgym.blockworld.BlockEnv": [[77, "pantheonrl-envs-blockworldgym-blockworld-blockenv"]], "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent": [[78, "pantheonrl-envs-blockworldgym-blockworld-defaultconstructoragent"]], "pantheonrl.envs.blockworldgym.gridutils": [[79, "module-pantheonrl.envs.blockworldgym.gridutils"]], "pantheonrl.envs.blockworldgym.gridutils.drop_random": [[80, "pantheonrl-envs-blockworldgym-gridutils-drop-random"]], "pantheonrl.envs.blockworldgym.gridutils.generate_random_world": [[81, "pantheonrl-envs-blockworldgym-gridutils-generate-random-world"]], "pantheonrl.envs.blockworldgym.gridutils.gravity": [[82, "pantheonrl-envs-blockworldgym-gridutils-gravity"]], "pantheonrl.envs.blockworldgym.gridutils.matches": [[83, "pantheonrl-envs-blockworldgym-gridutils-matches"]], "pantheonrl.envs.blockworldgym.gridutils.place": [[84, "pantheonrl-envs-blockworldgym-gridutils-place"]], "pantheonrl.envs.blockworldgym.rendering": [[85, "module-pantheonrl.envs.blockworldgym.rendering"]], "pantheonrl.envs.blockworldgym.rendering.Attr": [[86, "pantheonrl-envs-blockworldgym-rendering-attr"]], "pantheonrl.envs.blockworldgym.rendering.Color": [[87, "pantheonrl-envs-blockworldgym-rendering-color"]], "pantheonrl.envs.blockworldgym.rendering.Compound": [[88, "pantheonrl-envs-blockworldgym-rendering-compound"]], "pantheonrl.envs.blockworldgym.rendering.FilledPolygon": [[89, "pantheonrl-envs-blockworldgym-rendering-filledpolygon"]], "pantheonrl.envs.blockworldgym.rendering.Geom": [[90, "pantheonrl-envs-blockworldgym-rendering-geom"]], "pantheonrl.envs.blockworldgym.rendering.Image": [[91, "pantheonrl-envs-blockworldgym-rendering-image"]], "pantheonrl.envs.blockworldgym.rendering.Line": [[92, "pantheonrl-envs-blockworldgym-rendering-line"]], "pantheonrl.envs.blockworldgym.rendering.LineStyle": [[93, "pantheonrl-envs-blockworldgym-rendering-linestyle"]], "pantheonrl.envs.blockworldgym.rendering.LineWidth": [[94, "pantheonrl-envs-blockworldgym-rendering-linewidth"]], "pantheonrl.envs.blockworldgym.rendering.Point": [[95, "pantheonrl-envs-blockworldgym-rendering-point"]], "pantheonrl.envs.blockworldgym.rendering.PolyLine": [[96, "pantheonrl-envs-blockworldgym-rendering-polyline"]], "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer": [[97, "pantheonrl-envs-blockworldgym-rendering-simpleimageviewer"]], "pantheonrl.envs.blockworldgym.rendering.Transform": [[98, "pantheonrl-envs-blockworldgym-rendering-transform"]], "pantheonrl.envs.blockworldgym.rendering.Viewer": [[99, "pantheonrl-envs-blockworldgym-rendering-viewer"]], "pantheonrl.envs.blockworldgym.rendering.get_display": [[100, "pantheonrl-envs-blockworldgym-rendering-get-display"]], "pantheonrl.envs.blockworldgym.rendering.get_window": [[101, "pantheonrl-envs-blockworldgym-rendering-get-window"]], "pantheonrl.envs.blockworldgym.rendering.make_capsule": [[102, "pantheonrl-envs-blockworldgym-rendering-make-capsule"]], "pantheonrl.envs.blockworldgym.rendering.make_circle": [[103, "pantheonrl-envs-blockworldgym-rendering-make-circle"]], "pantheonrl.envs.blockworldgym.rendering.make_polygon": [[104, "pantheonrl-envs-blockworldgym-rendering-make-polygon"]], "pantheonrl.envs.blockworldgym.rendering.make_polyline": [[105, "pantheonrl-envs-blockworldgym-rendering-make-polyline"]], "pantheonrl.envs.blockworldgym.simpleblockworld": [[106, "module-pantheonrl.envs.blockworldgym.simpleblockworld"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent": [[107, "pantheonrl-envs-blockworldgym-simpleblockworld-sbwdefaultagent"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner": [[108, "pantheonrl-envs-blockworldgym-simpleblockworld-sbweasypartner"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv": [[109, "pantheonrl-envs-blockworldgym-simpleblockworld-simpleblockenv"]], "pantheonrl.envs.blockworldgym.simpleblockworld.generate_grid_world": [[110, "pantheonrl-envs-blockworldgym-simpleblockworld-generate-grid-world"]], "pantheonrl.envs.blockworldgym.simpleblockworld.random_block": [[111, "pantheonrl-envs-blockworldgym-simpleblockworld-random-block"]], "pantheonrl.envs.liargym": [[112, "pantheonrl-envs-liargym"]], "pantheonrl.envs.liargym.liar": [[113, "module-pantheonrl.envs.liargym.liar"]], "pantheonrl.envs.liargym.liar.LiarDefaultAgent": [[114, "pantheonrl-envs-liargym-liar-liardefaultagent"]], "pantheonrl.envs.liargym.liar.LiarEnv": [[115, "pantheonrl-envs-liargym-liar-liarenv"]], "pantheonrl.envs.pettingzoo": [[116, "module-pantheonrl.envs.pettingzoo"]], "pantheonrl.envs.pettingzoo.PettingZooAECWrapper": [[117, "pantheonrl-envs-pettingzoo-pettingzooaecwrapper"]], "pantheonrl.envs.rpsgym": [[118, "pantheonrl-envs-rpsgym"]], "pantheonrl.envs.rpsgym.rps": [[119, "module-pantheonrl.envs.rpsgym.rps"]], "pantheonrl.envs.rpsgym.rps.RPSEnv": [[120, "pantheonrl-envs-rpsgym-rps-rpsenv"]], "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent": [[121, "pantheonrl-envs-rpsgym-rps-rpsweightedagent"]], "Installation": [[123, "installation"]], "Prerequisites": [[123, "prerequisites"]], "Development version": [[123, "development-version"]], "Overcooked Installation": [[123, "overcooked-installation"]], "PettingZoo Installation": [[123, "pettingzoo-installation"]], "PantheonRL Docs": [[124, "pantheonrl-docs"]], "Citation": [[124, "citation"]], "User Guide": [[124, null]], "API reference": [[124, null]]}, "indexentries": {"module": [[0, "module-pantheonrl"], [1, "module-pantheonrl.algos"], [2, "module-pantheonrl.algos.adap"], [3, "module-pantheonrl.algos.adap.adap_learn"], [5, "module-pantheonrl.algos.adap.agent"], [7, "module-pantheonrl.algos.adap.policies"], [11, "module-pantheonrl.algos.adap.util"], [19, "module-pantheonrl.algos.bc"], [25, "module-pantheonrl.algos.modular"], [26, "module-pantheonrl.algos.modular.learn"], [28, "module-pantheonrl.algos.modular.policies"], [30, "module-pantheonrl.common"], [31, "module-pantheonrl.common.agents"], [38, "module-pantheonrl.common.multiagentenv"], [45, "module-pantheonrl.common.observation"], [49, "module-pantheonrl.common.trajsaver"], [56, "module-pantheonrl.common.util"], [65, "module-pantheonrl.common.wrappers"], [74, "module-pantheonrl.envs"], [75, "module-pantheonrl.envs.blockworldgym"], [76, "module-pantheonrl.envs.blockworldgym.blockworld"], [79, "module-pantheonrl.envs.blockworldgym.gridutils"], [85, "module-pantheonrl.envs.blockworldgym.rendering"], [106, "module-pantheonrl.envs.blockworldgym.simpleblockworld"], [112, "module-pantheonrl.envs.liargym"], [113, "module-pantheonrl.envs.liargym.liar"], [116, "module-pantheonrl.envs.pettingzoo"], [118, "module-pantheonrl.envs.rpsgym"], [119, "module-pantheonrl.envs.rpsgym.rps"]], "pantheonrl": [[0, "module-pantheonrl"]], "pantheonrl.algos": [[1, "module-pantheonrl.algos"]], "pantheonrl.algos.adap": [[2, "module-pantheonrl.algos.adap"]], "pantheonrl.algos.adap.adap_learn": [[3, "module-pantheonrl.algos.adap.adap_learn"]], "adap (class in pantheonrl.algos.adap.adap_learn)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP"]], "collect_rollouts() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.collect_rollouts"]], "get_env() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.get_env"]], "get_parameters() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.get_parameters"]], "get_vec_normalize_env() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.get_vec_normalize_env"]], "learn() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.learn"]], "load() (adap class method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.load"]], "logger (adap property)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.logger"]], "predict() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.predict"]], "save() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.save"]], "set_env() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.set_env"]], "set_logger() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.set_logger"]], "set_parameters() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.set_parameters"]], "set_random_seed() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.set_random_seed"]], "train() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.train"]], "pantheonrl.algos.adap.agent": [[5, "module-pantheonrl.algos.adap.agent"]], "adapagent (class in pantheonrl.algos.adap.agent)": [[6, "pantheonrl.algos.adap.agent.AdapAgent"]], "get_action() (adapagent method)": [[6, "pantheonrl.algos.adap.agent.AdapAgent.get_action"]], "learn() (adapagent method)": [[6, "pantheonrl.algos.adap.agent.AdapAgent.learn"]], "update() (adapagent method)": [[6, "pantheonrl.algos.adap.agent.AdapAgent.update"]], "pantheonrl.algos.adap.policies": [[7, "module-pantheonrl.algos.adap.policies"]], "adappolicy (class in pantheonrl.algos.adap.policies)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy"]], "__call__() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.__call__"]], "add_module() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.add_module"]], "apply() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.apply"]], "bfloat16() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.bfloat16"]], "buffers() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.buffers"]], "children() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.children"]], "cpu() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.cpu"]], "cuda() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.cuda"]], "device (adappolicy property)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.device"]], "double() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.double"]], "eval() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.eval"]], "evaluate_actions() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.evaluate_actions"]], "extra_repr() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.extra_repr"]], "extract_features() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.extract_features"]], "float() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.float"]], "forward() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.forward"]], "get_buffer() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.get_buffer"]], "get_distribution() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.get_distribution"]], "get_extra_state() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.get_extra_state"]], "get_parameter() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.get_parameter"]], "get_submodule() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.get_submodule"]], "half() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.half"]], "init_weights() (adappolicy static method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.init_weights"]], "ipu() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.ipu"]], "is_vectorized_observation() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.is_vectorized_observation"]], "load() (adappolicy class method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.load"]], "load_from_vector() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.load_from_vector"]], "load_state_dict() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.load_state_dict"]], "make_features_extractor() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.make_features_extractor"]], "modules() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.modules"]], "named_buffers() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.named_buffers"]], "named_children() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.named_children"]], "named_modules() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.named_modules"]], "named_parameters() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.named_parameters"]], "obs_to_tensor() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.obs_to_tensor"]], "parameters() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.parameters"]], "parameters_to_vector() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.parameters_to_vector"]], "predict() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.predict"]], "predict_values() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.predict_values"]], "register_backward_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_backward_hook"]], "register_buffer() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_buffer"]], "register_forward_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_forward_hook"]], "register_forward_pre_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_forward_pre_hook"]], "register_full_backward_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_full_backward_hook"]], "register_full_backward_pre_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_full_backward_pre_hook"]], "register_load_state_dict_post_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_load_state_dict_post_hook"]], "register_module() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_module"]], "register_parameter() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_parameter"]], "register_state_dict_pre_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_state_dict_pre_hook"]], "requires_grad_() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.requires_grad_"]], "reset_noise() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.reset_noise"]], "save() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.save"]], "scale_action() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.scale_action"]], "set_extra_state() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.set_extra_state"]], "set_training_mode() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.set_training_mode"]], "share_memory() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.share_memory"]], "squash_output (adappolicy property)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.squash_output"]], "state_dict() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.state_dict"]], "to() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.to"]], "to_empty() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.to_empty"]], "train() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.train"]], "type() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.type"]], "unscale_action() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.unscale_action"]], "xpu() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.xpu"]], "zero_grad() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.zero_grad"]], "adappolicymult (class in pantheonrl.algos.adap.policies)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult"]], "__call__() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.__call__"]], "add_module() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.add_module"]], "apply() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.apply"]], "bfloat16() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.bfloat16"]], "buffers() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.buffers"]], "children() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.children"]], "cpu() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.cpu"]], "cuda() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.cuda"]], "device (adappolicymult property)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.device"]], "double() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.double"]], "eval() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.eval"]], "evaluate_actions() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.evaluate_actions"]], "extra_repr() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.extra_repr"]], "extract_features() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.extract_features"]], "float() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.float"]], "forward() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.forward"]], "get_buffer() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.get_buffer"]], "get_distribution() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.get_distribution"]], "get_extra_state() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.get_extra_state"]], "get_parameter() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.get_parameter"]], "get_submodule() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.get_submodule"]], "half() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.half"]], "init_weights() (adappolicymult static method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.init_weights"]], "ipu() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.ipu"]], "is_vectorized_observation() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.is_vectorized_observation"]], "load() (adappolicymult class method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.load"]], "load_from_vector() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.load_from_vector"]], "load_state_dict() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.load_state_dict"]], "make_features_extractor() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.make_features_extractor"]], "modules() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.modules"]], "named_buffers() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.named_buffers"]], "named_children() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.named_children"]], "named_modules() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.named_modules"]], "named_parameters() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.named_parameters"]], "obs_to_tensor() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.obs_to_tensor"]], "parameters() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.parameters"]], "parameters_to_vector() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.parameters_to_vector"]], "predict() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.predict"]], "predict_values() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.predict_values"]], "register_backward_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_backward_hook"]], "register_buffer() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_buffer"]], "register_forward_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_forward_hook"]], "register_forward_pre_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_forward_pre_hook"]], "register_full_backward_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_full_backward_hook"]], "register_full_backward_pre_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_full_backward_pre_hook"]], "register_load_state_dict_post_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_load_state_dict_post_hook"]], "register_module() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_module"]], "register_parameter() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_parameter"]], "register_state_dict_pre_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_state_dict_pre_hook"]], "requires_grad_() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.requires_grad_"]], "reset_noise() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.reset_noise"]], "save() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.save"]], "scale_action() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.scale_action"]], "set_extra_state() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.set_extra_state"]], "set_training_mode() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.set_training_mode"]], "share_memory() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.share_memory"]], "squash_output (adappolicymult property)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.squash_output"]], "state_dict() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.state_dict"]], "to() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.to"]], "to_empty() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.to_empty"]], "train() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.train"]], "type() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.type"]], "unscale_action() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.unscale_action"]], "xpu() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.xpu"]], "zero_grad() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.zero_grad"]], "multmodel (class in pantheonrl.algos.adap.policies)": [[10, "pantheonrl.algos.adap.policies.MultModel"]], "__call__() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.__call__"]], "add_module() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.add_module"]], "apply() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.apply"]], "bfloat16() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.bfloat16"]], "buffers() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.buffers"]], "children() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.children"]], "cpu() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.cpu"]], "cuda() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.cuda"]], "double() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.double"]], "eval() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.eval"]], "extra_repr() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.extra_repr"]], "float() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.float"]], "forward() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.forward"]], "get_buffer() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.get_buffer"]], "get_extra_state() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.get_extra_state"]], "get_parameter() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.get_parameter"]], "get_submodule() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.get_submodule"]], "half() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.half"]], "ipu() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.ipu"]], "load_state_dict() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.load_state_dict"]], "modules() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.modules"]], "named_buffers() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.named_buffers"]], "named_children() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.named_children"]], "named_modules() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.named_modules"]], "named_parameters() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.named_parameters"]], "parameters() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.parameters"]], "register_backward_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_backward_hook"]], "register_buffer() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_buffer"]], "register_forward_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_forward_hook"]], "register_forward_pre_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_forward_pre_hook"]], "register_full_backward_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_full_backward_hook"]], "register_full_backward_pre_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_full_backward_pre_hook"]], "register_load_state_dict_post_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_load_state_dict_post_hook"]], "register_module() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_module"]], "register_parameter() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_parameter"]], "register_state_dict_pre_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_state_dict_pre_hook"]], "requires_grad_() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.requires_grad_"]], "set_extra_state() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.set_extra_state"]], "share_memory() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.share_memory"]], "state_dict() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.state_dict"]], "to() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.to"]], "to_empty() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.to_empty"]], "train() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.train"]], "type() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.type"]], "xpu() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.xpu"]], "zero_grad() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.zero_grad"]], "pantheonrl.algos.adap.util": [[11, "module-pantheonrl.algos.adap.util"]], "get_l2_sphere() (in module pantheonrl.algos.adap.util)": [[12, "pantheonrl.algos.adap.util.get_L2_sphere"]], "get_categorical() (in module pantheonrl.algos.adap.util)": [[13, "pantheonrl.algos.adap.util.get_categorical"]], "get_context_kl_loss() (in module pantheonrl.algos.adap.util)": [[14, "pantheonrl.algos.adap.util.get_context_kl_loss"]], "get_natural_number() (in module pantheonrl.algos.adap.util)": [[15, "pantheonrl.algos.adap.util.get_natural_number"]], "get_positive_square() (in module pantheonrl.algos.adap.util)": [[16, "pantheonrl.algos.adap.util.get_positive_square"]], "get_unit_square() (in module pantheonrl.algos.adap.util)": [[17, "pantheonrl.algos.adap.util.get_unit_square"]], "kl_divergence() (in module pantheonrl.algos.adap.util)": [[18, "pantheonrl.algos.adap.util.kl_divergence"]], "pantheonrl.algos.bc": [[19, "module-pantheonrl.algos.bc"]], "bc (class in pantheonrl.algos.bc)": [[20, "pantheonrl.algos.bc.BC"]], "default_batch_size (bc attribute)": [[20, "pantheonrl.algos.bc.BC.DEFAULT_BATCH_SIZE"]], "save_policy() (bc method)": [[20, "pantheonrl.algos.bc.BC.save_policy"]], "set_expert_data_loader() (bc method)": [[20, "pantheonrl.algos.bc.BC.set_expert_data_loader"]], "train() (bc method)": [[20, "pantheonrl.algos.bc.BC.train"]], "bcshell (class in pantheonrl.algos.bc)": [[21, "pantheonrl.algos.bc.BCShell"]], "constantlrschedule (class in pantheonrl.algos.bc)": [[22, "pantheonrl.algos.bc.ConstantLRSchedule"]], "__call__() (constantlrschedule method)": [[22, "pantheonrl.algos.bc.ConstantLRSchedule.__call__"]], "epochorbatchiteratorwithprogress (class in pantheonrl.algos.bc)": [[23, "pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress"]], "reconstruct_policy() (in module pantheonrl.algos.bc)": [[24, "pantheonrl.algos.bc.reconstruct_policy"]], "pantheonrl.algos.modular": [[25, "module-pantheonrl.algos.modular"]], "pantheonrl.algos.modular.learn": [[26, "module-pantheonrl.algos.modular.learn"]], "modularalgorithm (class in pantheonrl.algos.modular.learn)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm"]], "collect_rollouts() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.collect_rollouts"]], "get_env() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.get_env"]], "get_parameters() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.get_parameters"]], "get_vec_normalize_env() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.get_vec_normalize_env"]], "learn() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.learn"]], "load() (modularalgorithm class method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.load"]], "logger (modularalgorithm property)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.logger"]], "predict() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.predict"]], "save() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.save"]], "set_env() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.set_env"]], "set_logger() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.set_logger"]], "set_parameters() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.set_parameters"]], "set_random_seed() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.set_random_seed"]], "train() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.train"]], "pantheonrl.algos.modular.policies": [[28, "module-pantheonrl.algos.modular.policies"]], "modularpolicy (class in pantheonrl.algos.modular.policies)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy"]], "__call__() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.__call__"]], "add_module() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.add_module"]], "apply() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.apply"]], "bfloat16() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.bfloat16"]], "buffers() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.buffers"]], "children() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.children"]], "cpu() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.cpu"]], "cuda() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.cuda"]], "device (modularpolicy property)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.device"]], "double() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.double"]], "eval() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.eval"]], "evaluate_actions() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.evaluate_actions"]], "extra_repr() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.extra_repr"]], "extract_features() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.extract_features"]], "float() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.float"]], "forward() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.forward"]], "get_buffer() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.get_buffer"]], "get_extra_state() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.get_extra_state"]], "get_parameter() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.get_parameter"]], "get_submodule() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.get_submodule"]], "half() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.half"]], "init_weights() (modularpolicy static method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.init_weights"]], "ipu() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.ipu"]], "is_vectorized_observation() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.is_vectorized_observation"]], "load() (modularpolicy class method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.load"]], "load_from_vector() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.load_from_vector"]], "load_state_dict() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.load_state_dict"]], "make_features_extractor() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.make_features_extractor"]], "modules() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.modules"]], "named_buffers() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.named_buffers"]], "named_children() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.named_children"]], "named_modules() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.named_modules"]], "named_parameters() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.named_parameters"]], "obs_to_tensor() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.obs_to_tensor"]], "parameters() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.parameters"]], "parameters_to_vector() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.parameters_to_vector"]], "predict() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.predict"]], "register_backward_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_backward_hook"]], "register_buffer() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_buffer"]], "register_forward_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_forward_hook"]], "register_forward_pre_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_forward_pre_hook"]], "register_full_backward_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_full_backward_hook"]], "register_full_backward_pre_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_full_backward_pre_hook"]], "register_load_state_dict_post_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_load_state_dict_post_hook"]], "register_module() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_module"]], "register_parameter() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_parameter"]], "register_state_dict_pre_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_state_dict_pre_hook"]], "requires_grad_() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.requires_grad_"]], "reset_noise() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.reset_noise"]], "save() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.save"]], "scale_action() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.scale_action"]], "set_extra_state() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.set_extra_state"]], "set_training_mode() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.set_training_mode"]], "share_memory() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.share_memory"]], "squash_output (modularpolicy property)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.squash_output"]], "state_dict() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.state_dict"]], "to() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.to"]], "to_empty() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.to_empty"]], "train() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.train"]], "type() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.type"]], "unscale_action() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.unscale_action"]], "xpu() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.xpu"]], "zero_grad() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.zero_grad"]], "pantheonrl.common": [[30, "module-pantheonrl.common"]], "pantheonrl.common.agents": [[31, "module-pantheonrl.common.agents"]], "agent (class in pantheonrl.common.agents)": [[32, "pantheonrl.common.agents.Agent"]], "get_action() (agent method)": [[32, "pantheonrl.common.agents.Agent.get_action"]], "update() (agent method)": [[32, "pantheonrl.common.agents.Agent.update"]], "dummyagent (class in pantheonrl.common.agents)": [[33, "pantheonrl.common.agents.DummyAgent"]], "get_action() (dummyagent method)": [[33, "pantheonrl.common.agents.DummyAgent.get_action"]], "update() (dummyagent method)": [[33, "pantheonrl.common.agents.DummyAgent.update"]], "offpolicyagent (class in pantheonrl.common.agents)": [[34, "pantheonrl.common.agents.OffPolicyAgent"]], "get_action() (offpolicyagent method)": [[34, "pantheonrl.common.agents.OffPolicyAgent.get_action"]], "learn() (offpolicyagent method)": [[34, "pantheonrl.common.agents.OffPolicyAgent.learn"]], "update() (offpolicyagent method)": [[34, "pantheonrl.common.agents.OffPolicyAgent.update"]], "onpolicyagent (class in pantheonrl.common.agents)": [[35, "pantheonrl.common.agents.OnPolicyAgent"]], "get_action() (onpolicyagent method)": [[35, "pantheonrl.common.agents.OnPolicyAgent.get_action"]], "learn() (onpolicyagent method)": [[35, "pantheonrl.common.agents.OnPolicyAgent.learn"]], "update() (onpolicyagent method)": [[35, "pantheonrl.common.agents.OnPolicyAgent.update"]], "recordingagentwrapper (class in pantheonrl.common.agents)": [[36, "pantheonrl.common.agents.RecordingAgentWrapper"]], "get_action() (recordingagentwrapper method)": [[36, "pantheonrl.common.agents.RecordingAgentWrapper.get_action"]], "get_transitions() (recordingagentwrapper method)": [[36, "pantheonrl.common.agents.RecordingAgentWrapper.get_transitions"]], "update() (recordingagentwrapper method)": [[36, "pantheonrl.common.agents.RecordingAgentWrapper.update"]], "staticpolicyagent (class in pantheonrl.common.agents)": [[37, "pantheonrl.common.agents.StaticPolicyAgent"]], "get_action() (staticpolicyagent method)": [[37, "pantheonrl.common.agents.StaticPolicyAgent.get_action"]], "update() (staticpolicyagent method)": [[37, "pantheonrl.common.agents.StaticPolicyAgent.update"]], "pantheonrl.common.multiagentenv": [[38, "module-pantheonrl.common.multiagentenv"]], "dummyenv (class in pantheonrl.common.multiagentenv)": [[39, "pantheonrl.common.multiagentenv.DummyEnv"]], "close() (dummyenv method)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.close"]], "get_wrapper_attr() (dummyenv method)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.get_wrapper_attr"]], "np_random (dummyenv property)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.np_random"]], "render() (dummyenv method)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.render"]], "reset() (dummyenv method)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.reset"]], "step() (dummyenv method)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.step"]], "unwrapped (dummyenv property)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.unwrapped"]], "killenvexception": [[40, "pantheonrl.common.multiagentenv.KillEnvException"]], "multiagentenv (class in pantheonrl.common.multiagentenv)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv"]], "action_space (multiagentenv property)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.action_space"]], "add_partner_agent() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.add_partner_agent"]], "close() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.close"]], "construct_single_agent_interface() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.construct_single_agent_interface"]], "get_dummy_env() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.get_dummy_env"]], "get_ego_ind() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.get_ego_ind"]], "get_wrapper_attr() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.get_wrapper_attr"]], "n_reset() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.n_reset"]], "n_step() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.n_step"]], "np_random (multiagentenv property)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.np_random"]], "observation_space (multiagentenv property)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.observation_space"]], "render() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.render"]], "resample_random() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.resample_random"]], "resample_round_robin() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.resample_round_robin"]], "reset() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.reset"]], "set_ego_extractor() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_extractor"]], "set_ego_ind() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_ind"]], "set_partnerid() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.set_partnerid"]], "set_resample_policy() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.set_resample_policy"]], "step() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.step"]], "unwrapped (multiagentenv property)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.unwrapped"]], "playerexception": [[42, "pantheonrl.common.multiagentenv.PlayerException"]], "simultaneousenv (class in pantheonrl.common.multiagentenv)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv"]], "action_space (simultaneousenv property)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.action_space"]], "add_partner_agent() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.add_partner_agent"]], "close() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.close"]], "construct_single_agent_interface() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.construct_single_agent_interface"]], "get_dummy_env() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.get_dummy_env"]], "get_ego_ind() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.get_ego_ind"]], "get_wrapper_attr() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.get_wrapper_attr"]], "multi_reset() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.multi_reset"]], "multi_step() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.multi_step"]], "n_reset() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.n_reset"]], "n_step() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.n_step"]], "np_random (simultaneousenv property)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.np_random"]], "observation_space (simultaneousenv property)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.observation_space"]], "render() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.render"]], "resample_random() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.resample_random"]], "resample_round_robin() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.resample_round_robin"]], "reset() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.reset"]], "set_ego_extractor() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_extractor"]], "set_ego_ind() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_ind"]], "set_partnerid() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.set_partnerid"]], "set_resample_policy() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.set_resample_policy"]], "step() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.step"]], "unwrapped (simultaneousenv property)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.unwrapped"]], "turnbasedenv (class in pantheonrl.common.multiagentenv)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv"]], "action_space (turnbasedenv property)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.action_space"]], "add_partner_agent() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.add_partner_agent"]], "alt_step() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.alt_step"]], "close() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.close"]], "construct_single_agent_interface() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.construct_single_agent_interface"]], "ego_step() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.ego_step"]], "get_dummy_env() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.get_dummy_env"]], "get_ego_ind() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.get_ego_ind"]], "get_wrapper_attr() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.get_wrapper_attr"]], "multi_reset() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.multi_reset"]], "n_reset() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.n_reset"]], "n_step() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.n_step"]], "np_random (turnbasedenv property)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.np_random"]], "observation_space (turnbasedenv property)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.observation_space"]], "render() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.render"]], "resample_random() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.resample_random"]], "resample_round_robin() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.resample_round_robin"]], "reset() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.reset"]], "set_ego_extractor() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_extractor"]], "set_ego_ind() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_ind"]], "set_partnerid() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.set_partnerid"]], "set_resample_policy() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.set_resample_policy"]], "step() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.step"]], "unwrapped (turnbasedenv property)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.unwrapped"]], "pantheonrl.common.observation": [[45, "module-pantheonrl.common.observation"]], "observation (class in pantheonrl.common.observation)": [[46, "pantheonrl.common.observation.Observation"]], "action_mask (observation attribute)": [[46, "pantheonrl.common.observation.Observation.action_mask"]], "obs (observation attribute)": [[46, "pantheonrl.common.observation.Observation.obs"]], "state (observation attribute)": [[46, "pantheonrl.common.observation.Observation.state"]], "extract_obs() (in module pantheonrl.common.observation)": [[47, "pantheonrl.common.observation.extract_obs"]], "extract_partial_obs() (in module pantheonrl.common.observation)": [[48, "pantheonrl.common.observation.extract_partial_obs"]], "pantheonrl.common.trajsaver": [[49, "module-pantheonrl.common.trajsaver"]], "multitransitions (class in pantheonrl.common.trajsaver)": [[50, "pantheonrl.common.trajsaver.MultiTransitions"]], "get_alt_transitions() (multitransitions method)": [[50, "pantheonrl.common.trajsaver.MultiTransitions.get_alt_transitions"]], "get_ego_transitions() (multitransitions method)": [[50, "pantheonrl.common.trajsaver.MultiTransitions.get_ego_transitions"]], "write_transition() (multitransitions method)": [[50, "pantheonrl.common.trajsaver.MultiTransitions.write_transition"]], "simultaneoustransitions (class in pantheonrl.common.trajsaver)": [[51, "pantheonrl.common.trajsaver.SimultaneousTransitions"]], "get_alt_transitions() (simultaneoustransitions method)": [[51, "pantheonrl.common.trajsaver.SimultaneousTransitions.get_alt_transitions"]], "get_ego_transitions() (simultaneoustransitions method)": [[51, "pantheonrl.common.trajsaver.SimultaneousTransitions.get_ego_transitions"]], "read_transition() (simultaneoustransitions class method)": [[51, "pantheonrl.common.trajsaver.SimultaneousTransitions.read_transition"]], "write_transition() (simultaneoustransitions method)": [[51, "pantheonrl.common.trajsaver.SimultaneousTransitions.write_transition"]], "transitionsminimal (class in pantheonrl.common.trajsaver)": [[52, "pantheonrl.common.trajsaver.TransitionsMinimal"]], "acts (transitionsminimal attribute)": [[52, "pantheonrl.common.trajsaver.TransitionsMinimal.acts"]], "obs (transitionsminimal attribute)": [[52, "pantheonrl.common.trajsaver.TransitionsMinimal.obs"]], "read_transition() (transitionsminimal class method)": [[52, "pantheonrl.common.trajsaver.TransitionsMinimal.read_transition"]], "write_transition() (transitionsminimal method)": [[52, "pantheonrl.common.trajsaver.TransitionsMinimal.write_transition"]], "turnbasedtransitions (class in pantheonrl.common.trajsaver)": [[53, "pantheonrl.common.trajsaver.TurnBasedTransitions"]], "get_alt_transitions() (turnbasedtransitions method)": [[53, "pantheonrl.common.trajsaver.TurnBasedTransitions.get_alt_transitions"]], "get_ego_transitions() (turnbasedtransitions method)": [[53, "pantheonrl.common.trajsaver.TurnBasedTransitions.get_ego_transitions"]], "read_transition() (turnbasedtransitions class method)": [[53, "pantheonrl.common.trajsaver.TurnBasedTransitions.read_transition"]], "write_transition() (turnbasedtransitions method)": [[53, "pantheonrl.common.trajsaver.TurnBasedTransitions.write_transition"]], "dataclass_quick_asdict() (in module pantheonrl.common.trajsaver)": [[54, "pantheonrl.common.trajsaver.dataclass_quick_asdict"]], "transitions_collate_fn() (in module pantheonrl.common.trajsaver)": [[55, "pantheonrl.common.trajsaver.transitions_collate_fn"]], "pantheonrl.common.util": [[56, "module-pantheonrl.common.util"]], "feedforward32policy (class in pantheonrl.common.util)": [[57, "pantheonrl.common.util.FeedForward32Policy"]], "__call__() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.__call__"]], "add_module() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.add_module"]], "apply() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.apply"]], "bfloat16() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.bfloat16"]], "buffers() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.buffers"]], "children() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.children"]], "cpu() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.cpu"]], "cuda() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.cuda"]], "device (feedforward32policy property)": [[57, "pantheonrl.common.util.FeedForward32Policy.device"]], "double() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.double"]], "eval() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.eval"]], "evaluate_actions() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.evaluate_actions"]], "extra_repr() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.extra_repr"]], "extract_features() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.extract_features"]], "float() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.float"]], "forward() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.forward"]], "get_buffer() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.get_buffer"]], "get_distribution() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.get_distribution"]], "get_extra_state() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.get_extra_state"]], "get_parameter() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.get_parameter"]], "get_submodule() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.get_submodule"]], "half() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.half"]], "init_weights() (feedforward32policy static method)": [[57, "pantheonrl.common.util.FeedForward32Policy.init_weights"]], "ipu() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.ipu"]], "is_vectorized_observation() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.is_vectorized_observation"]], "load() (feedforward32policy class method)": [[57, "pantheonrl.common.util.FeedForward32Policy.load"]], "load_from_vector() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.load_from_vector"]], "load_state_dict() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.load_state_dict"]], "make_features_extractor() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.make_features_extractor"]], "modules() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.modules"]], "named_buffers() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.named_buffers"]], "named_children() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.named_children"]], "named_modules() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.named_modules"]], "named_parameters() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.named_parameters"]], "obs_to_tensor() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.obs_to_tensor"]], "parameters() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.parameters"]], "parameters_to_vector() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.parameters_to_vector"]], "predict() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.predict"]], "predict_values() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.predict_values"]], "register_backward_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_backward_hook"]], "register_buffer() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_buffer"]], "register_forward_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_forward_hook"]], "register_forward_pre_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_forward_pre_hook"]], "register_full_backward_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_full_backward_hook"]], "register_full_backward_pre_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_full_backward_pre_hook"]], "register_load_state_dict_post_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_load_state_dict_post_hook"]], "register_module() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_module"]], "register_parameter() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_parameter"]], "register_state_dict_pre_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_state_dict_pre_hook"]], "requires_grad_() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.requires_grad_"]], "reset_noise() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.reset_noise"]], "save() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.save"]], "scale_action() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.scale_action"]], "set_extra_state() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.set_extra_state"]], "set_training_mode() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.set_training_mode"]], "share_memory() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.share_memory"]], "squash_output (feedforward32policy property)": [[57, "pantheonrl.common.util.FeedForward32Policy.squash_output"]], "state_dict() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.state_dict"]], "to() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.to"]], "to_empty() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.to_empty"]], "train() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.train"]], "type() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.type"]], "unscale_action() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.unscale_action"]], "xpu() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.xpu"]], "zero_grad() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.zero_grad"]], "spaceexception": [[58, "pantheonrl.common.util.SpaceException"]], "action_from_policy() (in module pantheonrl.common.util)": [[59, "pantheonrl.common.util.action_from_policy"]], "calculate_space() (in module pantheonrl.common.util)": [[60, "pantheonrl.common.util.calculate_space"]], "clip_actions() (in module pantheonrl.common.util)": [[61, "pantheonrl.common.util.clip_actions"]], "get_default_obs() (in module pantheonrl.common.util)": [[62, "pantheonrl.common.util.get_default_obs"]], "get_space_size() (in module pantheonrl.common.util)": [[63, "pantheonrl.common.util.get_space_size"]], "resample_noise() (in module pantheonrl.common.util)": [[64, "pantheonrl.common.util.resample_noise"]], "pantheonrl.common.wrappers": [[65, "module-pantheonrl.common.wrappers"]], "historyqueue (class in pantheonrl.common.wrappers)": [[66, "pantheonrl.common.wrappers.HistoryQueue"]], "add() (historyqueue method)": [[66, "pantheonrl.common.wrappers.HistoryQueue.add"]], "reset() (historyqueue method)": [[66, "pantheonrl.common.wrappers.HistoryQueue.reset"]], "multirecorder (class in pantheonrl.common.wrappers)": [[67, "pantheonrl.common.wrappers.MultiRecorder"]], "get_transitions() (multirecorder method)": [[67, "pantheonrl.common.wrappers.MultiRecorder.get_transitions"]], "write_transition() (multirecorder method)": [[67, "pantheonrl.common.wrappers.MultiRecorder.write_transition"]], "simultaneousframestack (class in pantheonrl.common.wrappers)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack"]], "action_space (simultaneousframestack property)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.action_space"]], "add_partner_agent() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.add_partner_agent"]], "close() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.close"]], "construct_single_agent_interface() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.construct_single_agent_interface"]], "get_dummy_env() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.get_dummy_env"]], "get_ego_ind() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.get_ego_ind"]], "get_wrapper_attr() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.get_wrapper_attr"]], "multi_reset() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.multi_reset"]], "multi_step() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.multi_step"]], "n_reset() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.n_reset"]], "n_step() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.n_step"]], "np_random (simultaneousframestack property)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.np_random"]], "observation_space (simultaneousframestack property)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.observation_space"]], "render() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.render"]], "resample_random() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.resample_random"]], "resample_round_robin() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.resample_round_robin"]], "reset() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.reset"]], "set_ego_extractor() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_extractor"]], "set_ego_ind() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_ind"]], "set_partnerid() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.set_partnerid"]], "set_resample_policy() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.set_resample_policy"]], "step() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.step"]], "unwrapped (simultaneousframestack property)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.unwrapped"]], "simultaneousrecorder (class in pantheonrl.common.wrappers)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder"]], "action_space (simultaneousrecorder property)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.action_space"]], "add_partner_agent() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.add_partner_agent"]], "close() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.close"]], "construct_single_agent_interface() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.construct_single_agent_interface"]], "get_dummy_env() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.get_dummy_env"]], "get_ego_ind() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.get_ego_ind"]], "get_transitions() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.get_transitions"]], "get_wrapper_attr() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.get_wrapper_attr"]], "multi_reset() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.multi_reset"]], "multi_step() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.multi_step"]], "n_reset() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.n_reset"]], "n_step() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.n_step"]], "np_random (simultaneousrecorder property)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.np_random"]], "observation_space (simultaneousrecorder property)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.observation_space"]], "render() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.render"]], "resample_random() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.resample_random"]], "resample_round_robin() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.resample_round_robin"]], "reset() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.reset"]], "set_ego_extractor() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_extractor"]], "set_ego_ind() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_ind"]], "set_partnerid() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.set_partnerid"]], "set_resample_policy() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.set_resample_policy"]], "step() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.step"]], "unwrapped (simultaneousrecorder property)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.unwrapped"]], "write_transition() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.write_transition"]], "turnbasedframestack (class in pantheonrl.common.wrappers)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack"]], "action_space (turnbasedframestack property)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.action_space"]], "add_partner_agent() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.add_partner_agent"]], "alt_step() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.alt_step"]], "close() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.close"]], "construct_single_agent_interface() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.construct_single_agent_interface"]], "ego_step() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.ego_step"]], "get_dummy_env() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.get_dummy_env"]], "get_ego_ind() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.get_ego_ind"]], "get_wrapper_attr() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.get_wrapper_attr"]], "multi_reset() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.multi_reset"]], "n_reset() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.n_reset"]], "n_step() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.n_step"]], "np_random (turnbasedframestack property)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.np_random"]], "observation_space (turnbasedframestack property)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.observation_space"]], "render() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.render"]], "resample_random() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.resample_random"]], "resample_round_robin() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.resample_round_robin"]], "reset() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.reset"]], "set_ego_extractor() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_extractor"]], "set_ego_ind() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_ind"]], "set_partnerid() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.set_partnerid"]], "set_resample_policy() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.set_resample_policy"]], "step() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.step"]], "unwrapped (turnbasedframestack property)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.unwrapped"]], "turnbasedrecorder (class in pantheonrl.common.wrappers)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder"]], "action_space (turnbasedrecorder property)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.action_space"]], "add_partner_agent() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.add_partner_agent"]], "alt_step() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.alt_step"]], "close() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.close"]], "construct_single_agent_interface() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.construct_single_agent_interface"]], "ego_step() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.ego_step"]], "get_dummy_env() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.get_dummy_env"]], "get_ego_ind() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.get_ego_ind"]], "get_transitions() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.get_transitions"]], "get_wrapper_attr() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.get_wrapper_attr"]], "multi_reset() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.multi_reset"]], "n_reset() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.n_reset"]], "n_step() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.n_step"]], "np_random (turnbasedrecorder property)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.np_random"]], "observation_space (turnbasedrecorder property)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.observation_space"]], "render() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.render"]], "resample_random() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.resample_random"]], "resample_round_robin() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.resample_round_robin"]], "reset() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.reset"]], "set_ego_extractor() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_extractor"]], "set_ego_ind() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_ind"]], "set_partnerid() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.set_partnerid"]], "set_resample_policy() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.set_resample_policy"]], "step() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.step"]], "unwrapped (turnbasedrecorder property)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.unwrapped"]], "write_transition() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.write_transition"]], "frame_wrap() (in module pantheonrl.common.wrappers)": [[72, "pantheonrl.common.wrappers.frame_wrap"]], "recorder_wrap() (in module pantheonrl.common.wrappers)": [[73, "pantheonrl.common.wrappers.recorder_wrap"]], "pantheonrl.envs": [[74, "module-pantheonrl.envs"]], "pantheonrl.envs.blockworldgym": [[75, "module-pantheonrl.envs.blockworldgym"]], "pantheonrl.envs.blockworldgym.blockworld": [[76, "module-pantheonrl.envs.blockworldgym.blockworld"]], "blockenv (class in pantheonrl.envs.blockworldgym.blockworld)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv"]], "action_space (blockenv property)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.action_space"]], "add_partner_agent() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.add_partner_agent"]], "alt_step() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.alt_step"]], "close() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.close"]], "construct_single_agent_interface() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.construct_single_agent_interface"]], "ego_step() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.ego_step"]], "get_dummy_env() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.get_dummy_env"]], "get_ego_ind() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.get_ego_ind"]], "get_wrapper_attr() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.get_wrapper_attr"]], "multi_reset() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.multi_reset"]], "n_reset() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.n_reset"]], "n_step() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.n_step"]], "np_random (blockenv property)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.np_random"]], "observation_space (blockenv property)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.observation_space"]], "render() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.render"]], "resample_random() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_random"]], "resample_round_robin() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_round_robin"]], "reset() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.reset"]], "set_ego_extractor() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_extractor"]], "set_ego_ind() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_ind"]], "set_partnerid() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_partnerid"]], "set_resample_policy() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_resample_policy"]], "step() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.step"]], "unwrapped (blockenv property)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.unwrapped"]], "defaultconstructoragent (class in pantheonrl.envs.blockworldgym.blockworld)": [[78, "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent"]], "get_action() (defaultconstructoragent method)": [[78, "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent.get_action"]], "update() (defaultconstructoragent method)": [[78, "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent.update"]], "pantheonrl.envs.blockworldgym.gridutils": [[79, "module-pantheonrl.envs.blockworldgym.gridutils"]], "drop_random() (in module pantheonrl.envs.blockworldgym.gridutils)": [[80, "pantheonrl.envs.blockworldgym.gridutils.drop_random"]], "generate_random_world() (in module pantheonrl.envs.blockworldgym.gridutils)": [[81, "pantheonrl.envs.blockworldgym.gridutils.generate_random_world"]], "gravity() (in module pantheonrl.envs.blockworldgym.gridutils)": [[82, "pantheonrl.envs.blockworldgym.gridutils.gravity"]], "matches() (in module pantheonrl.envs.blockworldgym.gridutils)": [[83, "pantheonrl.envs.blockworldgym.gridutils.matches"]], "place() (in module pantheonrl.envs.blockworldgym.gridutils)": [[84, "pantheonrl.envs.blockworldgym.gridutils.place"]], "pantheonrl.envs.blockworldgym.rendering": [[85, "module-pantheonrl.envs.blockworldgym.rendering"]], "attr (class in pantheonrl.envs.blockworldgym.rendering)": [[86, "pantheonrl.envs.blockworldgym.rendering.Attr"]], "disable() (attr method)": [[86, "pantheonrl.envs.blockworldgym.rendering.Attr.disable"]], "enable() (attr method)": [[86, "pantheonrl.envs.blockworldgym.rendering.Attr.enable"]], "color (class in pantheonrl.envs.blockworldgym.rendering)": [[87, "pantheonrl.envs.blockworldgym.rendering.Color"]], "disable() (color method)": [[87, "pantheonrl.envs.blockworldgym.rendering.Color.disable"]], "enable() (color method)": [[87, "pantheonrl.envs.blockworldgym.rendering.Color.enable"]], "compound (class in pantheonrl.envs.blockworldgym.rendering)": [[88, "pantheonrl.envs.blockworldgym.rendering.Compound"]], "add_attr() (compound method)": [[88, "pantheonrl.envs.blockworldgym.rendering.Compound.add_attr"]], "render() (compound method)": [[88, "pantheonrl.envs.blockworldgym.rendering.Compound.render"]], "render1() (compound method)": [[88, "pantheonrl.envs.blockworldgym.rendering.Compound.render1"]], "set_color() (compound method)": [[88, "pantheonrl.envs.blockworldgym.rendering.Compound.set_color"]], "filledpolygon (class in pantheonrl.envs.blockworldgym.rendering)": [[89, "pantheonrl.envs.blockworldgym.rendering.FilledPolygon"]], "add_attr() (filledpolygon method)": [[89, "pantheonrl.envs.blockworldgym.rendering.FilledPolygon.add_attr"]], "render() (filledpolygon method)": [[89, "pantheonrl.envs.blockworldgym.rendering.FilledPolygon.render"]], "render1() (filledpolygon method)": [[89, "pantheonrl.envs.blockworldgym.rendering.FilledPolygon.render1"]], "set_color() (filledpolygon method)": [[89, "pantheonrl.envs.blockworldgym.rendering.FilledPolygon.set_color"]], "geom (class in pantheonrl.envs.blockworldgym.rendering)": [[90, "pantheonrl.envs.blockworldgym.rendering.Geom"]], "add_attr() (geom method)": [[90, "pantheonrl.envs.blockworldgym.rendering.Geom.add_attr"]], "render() (geom method)": [[90, "pantheonrl.envs.blockworldgym.rendering.Geom.render"]], "render1() (geom method)": [[90, "pantheonrl.envs.blockworldgym.rendering.Geom.render1"]], "set_color() (geom method)": [[90, "pantheonrl.envs.blockworldgym.rendering.Geom.set_color"]], "image (class in pantheonrl.envs.blockworldgym.rendering)": [[91, "pantheonrl.envs.blockworldgym.rendering.Image"]], "add_attr() (image method)": [[91, "pantheonrl.envs.blockworldgym.rendering.Image.add_attr"]], "render() (image method)": [[91, "pantheonrl.envs.blockworldgym.rendering.Image.render"]], "render1() (image method)": [[91, "pantheonrl.envs.blockworldgym.rendering.Image.render1"]], "set_color() (image method)": [[91, "pantheonrl.envs.blockworldgym.rendering.Image.set_color"]], "line (class in pantheonrl.envs.blockworldgym.rendering)": [[92, "pantheonrl.envs.blockworldgym.rendering.Line"]], "add_attr() (line method)": [[92, "pantheonrl.envs.blockworldgym.rendering.Line.add_attr"]], "render() (line method)": [[92, "pantheonrl.envs.blockworldgym.rendering.Line.render"]], "render1() (line method)": [[92, "pantheonrl.envs.blockworldgym.rendering.Line.render1"]], "set_color() (line method)": [[92, "pantheonrl.envs.blockworldgym.rendering.Line.set_color"]], "linestyle (class in pantheonrl.envs.blockworldgym.rendering)": [[93, "pantheonrl.envs.blockworldgym.rendering.LineStyle"]], "disable() (linestyle method)": [[93, "pantheonrl.envs.blockworldgym.rendering.LineStyle.disable"]], "enable() (linestyle method)": [[93, "pantheonrl.envs.blockworldgym.rendering.LineStyle.enable"]], "linewidth (class in pantheonrl.envs.blockworldgym.rendering)": [[94, "pantheonrl.envs.blockworldgym.rendering.LineWidth"]], "disable() (linewidth method)": [[94, "pantheonrl.envs.blockworldgym.rendering.LineWidth.disable"]], "enable() (linewidth method)": [[94, "pantheonrl.envs.blockworldgym.rendering.LineWidth.enable"]], "point (class in pantheonrl.envs.blockworldgym.rendering)": [[95, "pantheonrl.envs.blockworldgym.rendering.Point"]], "add_attr() (point method)": [[95, "pantheonrl.envs.blockworldgym.rendering.Point.add_attr"]], "render() (point method)": [[95, "pantheonrl.envs.blockworldgym.rendering.Point.render"]], "render1() (point method)": [[95, "pantheonrl.envs.blockworldgym.rendering.Point.render1"]], "set_color() (point method)": [[95, "pantheonrl.envs.blockworldgym.rendering.Point.set_color"]], "polyline (class in pantheonrl.envs.blockworldgym.rendering)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine"]], "add_attr() (polyline method)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine.add_attr"]], "render() (polyline method)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine.render"]], "render1() (polyline method)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine.render1"]], "set_color() (polyline method)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine.set_color"]], "set_linewidth() (polyline method)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine.set_linewidth"]], "simpleimageviewer (class in pantheonrl.envs.blockworldgym.rendering)": [[97, "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer"]], "close() (simpleimageviewer method)": [[97, "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer.close"]], "imshow() (simpleimageviewer method)": [[97, "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer.imshow"]], "transform (class in pantheonrl.envs.blockworldgym.rendering)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform"]], "disable() (transform method)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform.disable"]], "enable() (transform method)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform.enable"]], "set_rotation() (transform method)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform.set_rotation"]], "set_scale() (transform method)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform.set_scale"]], "set_translation() (transform method)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform.set_translation"]], "viewer (class in pantheonrl.envs.blockworldgym.rendering)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer"]], "add_geom() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.add_geom"]], "add_onetime() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.add_onetime"]], "close() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.close"]], "draw_circle() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.draw_circle"]], "draw_line() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.draw_line"]], "draw_polygon() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.draw_polygon"]], "draw_polyline() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.draw_polyline"]], "get_array() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.get_array"]], "render() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.render"]], "set_bounds() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.set_bounds"]], "window_closed_by_user() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.window_closed_by_user"]], "get_display() (in module pantheonrl.envs.blockworldgym.rendering)": [[100, "pantheonrl.envs.blockworldgym.rendering.get_display"]], "get_window() (in module pantheonrl.envs.blockworldgym.rendering)": [[101, "pantheonrl.envs.blockworldgym.rendering.get_window"]], "make_capsule() (in module pantheonrl.envs.blockworldgym.rendering)": [[102, "pantheonrl.envs.blockworldgym.rendering.make_capsule"]], "make_circle() (in module pantheonrl.envs.blockworldgym.rendering)": [[103, "pantheonrl.envs.blockworldgym.rendering.make_circle"]], "make_polygon() (in module pantheonrl.envs.blockworldgym.rendering)": [[104, "pantheonrl.envs.blockworldgym.rendering.make_polygon"]], "make_polyline() (in module pantheonrl.envs.blockworldgym.rendering)": [[105, "pantheonrl.envs.blockworldgym.rendering.make_polyline"]], "pantheonrl.envs.blockworldgym.simpleblockworld": [[106, "module-pantheonrl.envs.blockworldgym.simpleblockworld"]], "sbwdefaultagent (class in pantheonrl.envs.blockworldgym.simpleblockworld)": [[107, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent"]], "get_action() (sbwdefaultagent method)": [[107, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent.get_action"]], "update() (sbwdefaultagent method)": [[107, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent.update"]], "sbweasypartner (class in pantheonrl.envs.blockworldgym.simpleblockworld)": [[108, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner"]], "get_action() (sbweasypartner method)": [[108, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner.get_action"]], "update() (sbweasypartner method)": [[108, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner.update"]], "simpleblockenv (class in pantheonrl.envs.blockworldgym.simpleblockworld)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv"]], "action_space (simpleblockenv property)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.action_space"]], "add_partner_agent() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.add_partner_agent"]], "alt_step() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.alt_step"]], "close() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.close"]], "construct_single_agent_interface() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.construct_single_agent_interface"]], "ego_step() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.ego_step"]], "get_dummy_env() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.get_dummy_env"]], "get_ego_ind() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.get_ego_ind"]], "get_wrapper_attr() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.get_wrapper_attr"]], "multi_reset() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.multi_reset"]], "n_reset() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.n_reset"]], "n_step() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.n_step"]], "np_random (simpleblockenv property)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.np_random"]], "observation_space (simpleblockenv property)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.observation_space"]], "render() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.render"]], "resample_random() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_random"]], "resample_round_robin() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_round_robin"]], "reset() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.reset"]], "set_ego_extractor() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_extractor"]], "set_ego_ind() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_ind"]], "set_partnerid() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_partnerid"]], "set_resample_policy() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_resample_policy"]], "step() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.step"]], "unwrapped (simpleblockenv property)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.unwrapped"]], "generate_grid_world() (in module pantheonrl.envs.blockworldgym.simpleblockworld)": [[110, "pantheonrl.envs.blockworldgym.simpleblockworld.generate_grid_world"]], "random_block() (in module pantheonrl.envs.blockworldgym.simpleblockworld)": [[111, "pantheonrl.envs.blockworldgym.simpleblockworld.random_block"]], "pantheonrl.envs.liargym": [[112, "module-pantheonrl.envs.liargym"]], "pantheonrl.envs.liargym.liar": [[113, "module-pantheonrl.envs.liargym.liar"]], "liardefaultagent (class in pantheonrl.envs.liargym.liar)": [[114, "pantheonrl.envs.liargym.liar.LiarDefaultAgent"]], "get_action() (liardefaultagent method)": [[114, "pantheonrl.envs.liargym.liar.LiarDefaultAgent.get_action"]], "update() (liardefaultagent method)": [[114, "pantheonrl.envs.liargym.liar.LiarDefaultAgent.update"]], "liarenv (class in pantheonrl.envs.liargym.liar)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv"]], "action_space (liarenv property)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.action_space"]], "add_partner_agent() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.add_partner_agent"]], "alt_step() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.alt_step"]], "close() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.close"]], "construct_single_agent_interface() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.construct_single_agent_interface"]], "ego_step() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.ego_step"]], "get_dummy_env() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.get_dummy_env"]], "get_ego_ind() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.get_ego_ind"]], "get_wrapper_attr() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.get_wrapper_attr"]], "multi_reset() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.multi_reset"]], "n_reset() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.n_reset"]], "n_step() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.n_step"]], "np_random (liarenv property)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.np_random"]], "observation_space (liarenv property)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.observation_space"]], "render() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.render"]], "resample_random() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.resample_random"]], "resample_round_robin() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.resample_round_robin"]], "reset() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.reset"]], "set_ego_extractor() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.set_ego_extractor"]], "set_ego_ind() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.set_ego_ind"]], "set_partnerid() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.set_partnerid"]], "set_resample_policy() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.set_resample_policy"]], "step() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.step"]], "unwrapped (liarenv property)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.unwrapped"]], "pantheonrl.envs.pettingzoo": [[116, "module-pantheonrl.envs.pettingzoo"]], "pettingzooaecwrapper (class in pantheonrl.envs.pettingzoo)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper"]], "action_space (pettingzooaecwrapper property)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.action_space"]], "add_partner_agent() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.add_partner_agent"]], "close() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.close"]], "construct_single_agent_interface() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.construct_single_agent_interface"]], "get_dummy_env() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.get_dummy_env"]], "get_ego_ind() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.get_ego_ind"]], "get_wrapper_attr() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.get_wrapper_attr"]], "n_reset() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.n_reset"]], "n_step() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.n_step"]], "np_random (pettingzooaecwrapper property)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.np_random"]], "observation_space (pettingzooaecwrapper property)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.observation_space"]], "render() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.render"]], "resample_random() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_random"]], "resample_round_robin() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_round_robin"]], "reset() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.reset"]], "set_ego_extractor() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_extractor"]], "set_ego_ind() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_ind"]], "set_partnerid() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_partnerid"]], "set_resample_policy() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_resample_policy"]], "step() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.step"]], "unwrapped (pettingzooaecwrapper property)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.unwrapped"]], "pantheonrl.envs.rpsgym": [[118, "module-pantheonrl.envs.rpsgym"]], "pantheonrl.envs.rpsgym.rps": [[119, "module-pantheonrl.envs.rpsgym.rps"]], "rpsenv (class in pantheonrl.envs.rpsgym.rps)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv"]], "action_space (rpsenv property)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.action_space"]], "add_partner_agent() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.add_partner_agent"]], "close() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.close"]], "construct_single_agent_interface() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.construct_single_agent_interface"]], "get_dummy_env() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.get_dummy_env"]], "get_ego_ind() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.get_ego_ind"]], "get_wrapper_attr() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.get_wrapper_attr"]], "multi_reset() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.multi_reset"]], "multi_step() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.multi_step"]], "n_reset() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.n_reset"]], "n_step() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.n_step"]], "np_random (rpsenv property)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.np_random"]], "observation_space (rpsenv property)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.observation_space"]], "render() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.render"]], "resample_random() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.resample_random"]], "resample_round_robin() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.resample_round_robin"]], "reset() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.reset"]], "set_ego_extractor() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_extractor"]], "set_ego_ind() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_ind"]], "set_partnerid() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.set_partnerid"]], "set_resample_policy() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.set_resample_policy"]], "step() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.step"]], "unwrapped (rpsenv property)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.unwrapped"]], "rpsweightedagent (class in pantheonrl.envs.rpsgym.rps)": [[121, "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent"]], "get_action() (rpsweightedagent method)": [[121, "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent.get_action"]], "update() (rpsweightedagent method)": [[121, "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent.update"]]}})
\ No newline at end of file
+Search.setIndex({"docnames": ["_autosummary/pantheonrl", "_autosummary/pantheonrl.algos", "_autosummary/pantheonrl.algos.adap", "_autosummary/pantheonrl.algos.adap.adap_learn", "_autosummary/pantheonrl.algos.adap.adap_learn.ADAP", "_autosummary/pantheonrl.algos.adap.agent", "_autosummary/pantheonrl.algos.adap.agent.AdapAgent", "_autosummary/pantheonrl.algos.adap.policies", "_autosummary/pantheonrl.algos.adap.policies.AdapPolicy", "_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult", "_autosummary/pantheonrl.algos.adap.policies.MultModel", "_autosummary/pantheonrl.algos.adap.util", "_autosummary/pantheonrl.algos.adap.util.get_L2_sphere", "_autosummary/pantheonrl.algos.adap.util.get_categorical", "_autosummary/pantheonrl.algos.adap.util.get_context_kl_loss", "_autosummary/pantheonrl.algos.adap.util.get_natural_number", "_autosummary/pantheonrl.algos.adap.util.get_positive_square", "_autosummary/pantheonrl.algos.adap.util.get_unit_square", "_autosummary/pantheonrl.algos.adap.util.kl_divergence", "_autosummary/pantheonrl.algos.bc", "_autosummary/pantheonrl.algos.bc.BC", "_autosummary/pantheonrl.algos.bc.BCShell", "_autosummary/pantheonrl.algos.bc.ConstantLRSchedule", "_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress", "_autosummary/pantheonrl.algos.bc.reconstruct_policy", "_autosummary/pantheonrl.algos.modular", "_autosummary/pantheonrl.algos.modular.learn", "_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm", "_autosummary/pantheonrl.algos.modular.policies", "_autosummary/pantheonrl.algos.modular.policies.ModularPolicy", "_autosummary/pantheonrl.common", "_autosummary/pantheonrl.common.agents", "_autosummary/pantheonrl.common.agents.Agent", "_autosummary/pantheonrl.common.agents.DummyAgent", "_autosummary/pantheonrl.common.agents.OffPolicyAgent", "_autosummary/pantheonrl.common.agents.OnPolicyAgent", "_autosummary/pantheonrl.common.agents.RecordingAgentWrapper", "_autosummary/pantheonrl.common.agents.StaticPolicyAgent", "_autosummary/pantheonrl.common.multiagentenv", "_autosummary/pantheonrl.common.multiagentenv.DummyEnv", "_autosummary/pantheonrl.common.multiagentenv.KillEnvException", "_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv", "_autosummary/pantheonrl.common.multiagentenv.PlayerException", "_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv", "_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv", "_autosummary/pantheonrl.common.observation", "_autosummary/pantheonrl.common.observation.Observation", "_autosummary/pantheonrl.common.observation.extract_obs", "_autosummary/pantheonrl.common.observation.extract_partial_obs", "_autosummary/pantheonrl.common.trajsaver", "_autosummary/pantheonrl.common.trajsaver.MultiTransitions", "_autosummary/pantheonrl.common.trajsaver.SimultaneousTransitions", "_autosummary/pantheonrl.common.trajsaver.TransitionsMinimal", "_autosummary/pantheonrl.common.trajsaver.TurnBasedTransitions", "_autosummary/pantheonrl.common.trajsaver.dataclass_quick_asdict", "_autosummary/pantheonrl.common.trajsaver.transitions_collate_fn", "_autosummary/pantheonrl.common.util", "_autosummary/pantheonrl.common.util.FeedForward32Policy", "_autosummary/pantheonrl.common.util.SpaceException", "_autosummary/pantheonrl.common.util.action_from_policy", "_autosummary/pantheonrl.common.util.calculate_space", "_autosummary/pantheonrl.common.util.clip_actions", "_autosummary/pantheonrl.common.util.get_default_obs", "_autosummary/pantheonrl.common.util.get_space_size", "_autosummary/pantheonrl.common.util.resample_noise", "_autosummary/pantheonrl.common.wrappers", "_autosummary/pantheonrl.common.wrappers.HistoryQueue", "_autosummary/pantheonrl.common.wrappers.MultiRecorder", "_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack", "_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder", "_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack", "_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder", "_autosummary/pantheonrl.common.wrappers.frame_wrap", "_autosummary/pantheonrl.common.wrappers.recorder_wrap", "_autosummary/pantheonrl.envs", "_autosummary/pantheonrl.envs.blockworldgym", "_autosummary/pantheonrl.envs.blockworldgym.blockworld", "_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv", "_autosummary/pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent", "_autosummary/pantheonrl.envs.blockworldgym.gridutils", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.drop_random", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.generate_random_world", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.gravity", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.matches", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.place", "_autosummary/pantheonrl.envs.blockworldgym.rendering", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Attr", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Color", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Compound", "_autosummary/pantheonrl.envs.blockworldgym.rendering.FilledPolygon", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Geom", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Image", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Line", "_autosummary/pantheonrl.envs.blockworldgym.rendering.LineStyle", "_autosummary/pantheonrl.envs.blockworldgym.rendering.LineWidth", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Point", "_autosummary/pantheonrl.envs.blockworldgym.rendering.PolyLine", "_autosummary/pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Transform", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Viewer", "_autosummary/pantheonrl.envs.blockworldgym.rendering.get_display", "_autosummary/pantheonrl.envs.blockworldgym.rendering.get_window", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_capsule", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_circle", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_polygon", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_polyline", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.generate_grid_world", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.random_block", "_autosummary/pantheonrl.envs.liargym", "_autosummary/pantheonrl.envs.liargym.liar", "_autosummary/pantheonrl.envs.liargym.liar.LiarDefaultAgent", "_autosummary/pantheonrl.envs.liargym.liar.LiarEnv", "_autosummary/pantheonrl.envs.pettingzoo", "_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper", "_autosummary/pantheonrl.envs.rpsgym", "_autosummary/pantheonrl.envs.rpsgym.rps", "_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv", "_autosummary/pantheonrl.envs.rpsgym.rps.RPSWeightedAgent", "api", "guide/install", "index"], "filenames": ["_autosummary/pantheonrl.rst", "_autosummary/pantheonrl.algos.rst", "_autosummary/pantheonrl.algos.adap.rst", "_autosummary/pantheonrl.algos.adap.adap_learn.rst", "_autosummary/pantheonrl.algos.adap.adap_learn.ADAP.rst", "_autosummary/pantheonrl.algos.adap.agent.rst", "_autosummary/pantheonrl.algos.adap.agent.AdapAgent.rst", "_autosummary/pantheonrl.algos.adap.policies.rst", "_autosummary/pantheonrl.algos.adap.policies.AdapPolicy.rst", "_autosummary/pantheonrl.algos.adap.policies.AdapPolicyMult.rst", "_autosummary/pantheonrl.algos.adap.policies.MultModel.rst", "_autosummary/pantheonrl.algos.adap.util.rst", "_autosummary/pantheonrl.algos.adap.util.get_L2_sphere.rst", "_autosummary/pantheonrl.algos.adap.util.get_categorical.rst", "_autosummary/pantheonrl.algos.adap.util.get_context_kl_loss.rst", "_autosummary/pantheonrl.algos.adap.util.get_natural_number.rst", "_autosummary/pantheonrl.algos.adap.util.get_positive_square.rst", "_autosummary/pantheonrl.algos.adap.util.get_unit_square.rst", "_autosummary/pantheonrl.algos.adap.util.kl_divergence.rst", "_autosummary/pantheonrl.algos.bc.rst", "_autosummary/pantheonrl.algos.bc.BC.rst", "_autosummary/pantheonrl.algos.bc.BCShell.rst", "_autosummary/pantheonrl.algos.bc.ConstantLRSchedule.rst", "_autosummary/pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.rst", "_autosummary/pantheonrl.algos.bc.reconstruct_policy.rst", "_autosummary/pantheonrl.algos.modular.rst", "_autosummary/pantheonrl.algos.modular.learn.rst", "_autosummary/pantheonrl.algos.modular.learn.ModularAlgorithm.rst", "_autosummary/pantheonrl.algos.modular.policies.rst", "_autosummary/pantheonrl.algos.modular.policies.ModularPolicy.rst", "_autosummary/pantheonrl.common.rst", "_autosummary/pantheonrl.common.agents.rst", "_autosummary/pantheonrl.common.agents.Agent.rst", "_autosummary/pantheonrl.common.agents.DummyAgent.rst", "_autosummary/pantheonrl.common.agents.OffPolicyAgent.rst", "_autosummary/pantheonrl.common.agents.OnPolicyAgent.rst", "_autosummary/pantheonrl.common.agents.RecordingAgentWrapper.rst", "_autosummary/pantheonrl.common.agents.StaticPolicyAgent.rst", "_autosummary/pantheonrl.common.multiagentenv.rst", "_autosummary/pantheonrl.common.multiagentenv.DummyEnv.rst", "_autosummary/pantheonrl.common.multiagentenv.KillEnvException.rst", "_autosummary/pantheonrl.common.multiagentenv.MultiAgentEnv.rst", "_autosummary/pantheonrl.common.multiagentenv.PlayerException.rst", "_autosummary/pantheonrl.common.multiagentenv.SimultaneousEnv.rst", "_autosummary/pantheonrl.common.multiagentenv.TurnBasedEnv.rst", "_autosummary/pantheonrl.common.observation.rst", "_autosummary/pantheonrl.common.observation.Observation.rst", "_autosummary/pantheonrl.common.observation.extract_obs.rst", "_autosummary/pantheonrl.common.observation.extract_partial_obs.rst", "_autosummary/pantheonrl.common.trajsaver.rst", "_autosummary/pantheonrl.common.trajsaver.MultiTransitions.rst", "_autosummary/pantheonrl.common.trajsaver.SimultaneousTransitions.rst", "_autosummary/pantheonrl.common.trajsaver.TransitionsMinimal.rst", "_autosummary/pantheonrl.common.trajsaver.TurnBasedTransitions.rst", "_autosummary/pantheonrl.common.trajsaver.dataclass_quick_asdict.rst", "_autosummary/pantheonrl.common.trajsaver.transitions_collate_fn.rst", "_autosummary/pantheonrl.common.util.rst", "_autosummary/pantheonrl.common.util.FeedForward32Policy.rst", "_autosummary/pantheonrl.common.util.SpaceException.rst", "_autosummary/pantheonrl.common.util.action_from_policy.rst", "_autosummary/pantheonrl.common.util.calculate_space.rst", "_autosummary/pantheonrl.common.util.clip_actions.rst", "_autosummary/pantheonrl.common.util.get_default_obs.rst", "_autosummary/pantheonrl.common.util.get_space_size.rst", "_autosummary/pantheonrl.common.util.resample_noise.rst", "_autosummary/pantheonrl.common.wrappers.rst", "_autosummary/pantheonrl.common.wrappers.HistoryQueue.rst", "_autosummary/pantheonrl.common.wrappers.MultiRecorder.rst", "_autosummary/pantheonrl.common.wrappers.SimultaneousFrameStack.rst", "_autosummary/pantheonrl.common.wrappers.SimultaneousRecorder.rst", "_autosummary/pantheonrl.common.wrappers.TurnBasedFrameStack.rst", "_autosummary/pantheonrl.common.wrappers.TurnBasedRecorder.rst", "_autosummary/pantheonrl.common.wrappers.frame_wrap.rst", "_autosummary/pantheonrl.common.wrappers.recorder_wrap.rst", "_autosummary/pantheonrl.envs.rst", "_autosummary/pantheonrl.envs.blockworldgym.rst", "_autosummary/pantheonrl.envs.blockworldgym.blockworld.rst", "_autosummary/pantheonrl.envs.blockworldgym.blockworld.BlockEnv.rst", "_autosummary/pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.drop_random.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.generate_random_world.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.gravity.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.matches.rst", "_autosummary/pantheonrl.envs.blockworldgym.gridutils.place.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Attr.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Color.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Compound.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.FilledPolygon.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Geom.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Image.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Line.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.LineStyle.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.LineWidth.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Point.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.PolyLine.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Transform.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.Viewer.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.get_display.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.get_window.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_capsule.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_circle.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_polygon.rst", "_autosummary/pantheonrl.envs.blockworldgym.rendering.make_polyline.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.generate_grid_world.rst", "_autosummary/pantheonrl.envs.blockworldgym.simpleblockworld.random_block.rst", "_autosummary/pantheonrl.envs.liargym.rst", "_autosummary/pantheonrl.envs.liargym.liar.rst", "_autosummary/pantheonrl.envs.liargym.liar.LiarDefaultAgent.rst", "_autosummary/pantheonrl.envs.liargym.liar.LiarEnv.rst", "_autosummary/pantheonrl.envs.pettingzoo.rst", "_autosummary/pantheonrl.envs.pettingzoo.PettingZooAECWrapper.rst", "_autosummary/pantheonrl.envs.rpsgym.rst", "_autosummary/pantheonrl.envs.rpsgym.rps.rst", "_autosummary/pantheonrl.envs.rpsgym.rps.RPSEnv.rst", "_autosummary/pantheonrl.envs.rpsgym.rps.RPSWeightedAgent.rst", "api.rst", "guide/install.rst", "index.rst"], "titles": ["pantheonrl", "pantheonrl.algos", "pantheonrl.algos.adap", "pantheonrl.algos.adap.adap_learn", "pantheonrl.algos.adap.adap_learn.ADAP", "pantheonrl.algos.adap.agent", "pantheonrl.algos.adap.agent.AdapAgent", "pantheonrl.algos.adap.policies", "pantheonrl.algos.adap.policies.AdapPolicy", "pantheonrl.algos.adap.policies.AdapPolicyMult", "pantheonrl.algos.adap.policies.MultModel", "pantheonrl.algos.adap.util", "pantheonrl.algos.adap.util.get_l2_sphere", "pantheonrl.algos.adap.util.get_categorical", "pantheonrl.algos.adap.util.get_context_kl_loss", "pantheonrl.algos.adap.util.get_natural_number", "pantheonrl.algos.adap.util.get_positive_square", "pantheonrl.algos.adap.util.get_unit_square", "pantheonrl.algos.adap.util.kl_divergence", "pantheonrl.algos.bc", "pantheonrl.algos.bc.BC", "pantheonrl.algos.bc.BCShell", "pantheonrl.algos.bc.ConstantLRSchedule", "pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress", "pantheonrl.algos.bc.reconstruct_policy", "pantheonrl.algos.modular", "pantheonrl.algos.modular.learn", "pantheonrl.algos.modular.learn.ModularAlgorithm", "pantheonrl.algos.modular.policies", "pantheonrl.algos.modular.policies.ModularPolicy", "pantheonrl.common", "pantheonrl.common.agents", "pantheonrl.common.agents.Agent", "pantheonrl.common.agents.DummyAgent", "pantheonrl.common.agents.OffPolicyAgent", "pantheonrl.common.agents.OnPolicyAgent", "pantheonrl.common.agents.RecordingAgentWrapper", "pantheonrl.common.agents.StaticPolicyAgent", "pantheonrl.common.multiagentenv", "pantheonrl.common.multiagentenv.DummyEnv", "pantheonrl.common.multiagentenv.KillEnvException", "pantheonrl.common.multiagentenv.MultiAgentEnv", "pantheonrl.common.multiagentenv.PlayerException", "pantheonrl.common.multiagentenv.SimultaneousEnv", "pantheonrl.common.multiagentenv.TurnBasedEnv", "pantheonrl.common.observation", "pantheonrl.common.observation.Observation", "pantheonrl.common.observation.extract_obs", "pantheonrl.common.observation.extract_partial_obs", "pantheonrl.common.trajsaver", "pantheonrl.common.trajsaver.MultiTransitions", "pantheonrl.common.trajsaver.SimultaneousTransitions", "pantheonrl.common.trajsaver.TransitionsMinimal", "pantheonrl.common.trajsaver.TurnBasedTransitions", "pantheonrl.common.trajsaver.dataclass_quick_asdict", "pantheonrl.common.trajsaver.transitions_collate_fn", "pantheonrl.common.util", "pantheonrl.common.util.FeedForward32Policy", "pantheonrl.common.util.SpaceException", "pantheonrl.common.util.action_from_policy", "pantheonrl.common.util.calculate_space", "pantheonrl.common.util.clip_actions", "pantheonrl.common.util.get_default_obs", "pantheonrl.common.util.get_space_size", "pantheonrl.common.util.resample_noise", "pantheonrl.common.wrappers", "pantheonrl.common.wrappers.HistoryQueue", "pantheonrl.common.wrappers.MultiRecorder", "pantheonrl.common.wrappers.SimultaneousFrameStack", "pantheonrl.common.wrappers.SimultaneousRecorder", "pantheonrl.common.wrappers.TurnBasedFrameStack", "pantheonrl.common.wrappers.TurnBasedRecorder", "pantheonrl.common.wrappers.frame_wrap", "pantheonrl.common.wrappers.recorder_wrap", "pantheonrl.envs", "pantheonrl.envs.blockworldgym", "pantheonrl.envs.blockworldgym.blockworld", "pantheonrl.envs.blockworldgym.blockworld.BlockEnv", "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent", "pantheonrl.envs.blockworldgym.gridutils", "pantheonrl.envs.blockworldgym.gridutils.drop_random", "pantheonrl.envs.blockworldgym.gridutils.generate_random_world", "pantheonrl.envs.blockworldgym.gridutils.gravity", "pantheonrl.envs.blockworldgym.gridutils.matches", "pantheonrl.envs.blockworldgym.gridutils.place", "pantheonrl.envs.blockworldgym.rendering", "pantheonrl.envs.blockworldgym.rendering.Attr", "pantheonrl.envs.blockworldgym.rendering.Color", "pantheonrl.envs.blockworldgym.rendering.Compound", "pantheonrl.envs.blockworldgym.rendering.FilledPolygon", "pantheonrl.envs.blockworldgym.rendering.Geom", "pantheonrl.envs.blockworldgym.rendering.Image", "pantheonrl.envs.blockworldgym.rendering.Line", "pantheonrl.envs.blockworldgym.rendering.LineStyle", "pantheonrl.envs.blockworldgym.rendering.LineWidth", "pantheonrl.envs.blockworldgym.rendering.Point", "pantheonrl.envs.blockworldgym.rendering.PolyLine", "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer", "pantheonrl.envs.blockworldgym.rendering.Transform", "pantheonrl.envs.blockworldgym.rendering.Viewer", "pantheonrl.envs.blockworldgym.rendering.get_display", "pantheonrl.envs.blockworldgym.rendering.get_window", "pantheonrl.envs.blockworldgym.rendering.make_capsule", "pantheonrl.envs.blockworldgym.rendering.make_circle", "pantheonrl.envs.blockworldgym.rendering.make_polygon", "pantheonrl.envs.blockworldgym.rendering.make_polyline", "pantheonrl.envs.blockworldgym.simpleblockworld", "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent", "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner", "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv", "pantheonrl.envs.blockworldgym.simpleblockworld.generate_grid_world", "pantheonrl.envs.blockworldgym.simpleblockworld.random_block", "pantheonrl.envs.liargym", "pantheonrl.envs.liargym.liar", "pantheonrl.envs.liargym.liar.LiarDefaultAgent", "pantheonrl.envs.liargym.liar.LiarEnv", "pantheonrl.envs.pettingzoo", "pantheonrl.envs.pettingzoo.PettingZooAECWrapper", "pantheonrl.envs.rpsgym", "pantheonrl.envs.rpsgym.rps", "pantheonrl.envs.rpsgym.rps.RPSEnv", "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent", "&lt;no title&gt;", "Installation", "PantheonRL Docs"], "terms": {"i": [0, 4, 6, 8, 9, 10, 20, 27, 29, 32, 33, 34, 35, 36, 37, 39, 40, 41, 43, 44, 46, 52, 54, 57, 58, 60, 66, 68, 69, 70, 71, 77, 78, 99, 107, 108, 109, 114, 115, 117, 120, 121, 123, 124], "packag": [0, 121, 124], "train": [0, 4, 6, 8, 9, 10, 19, 20, 27, 29, 31, 34, 35, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "test": [0, 124], "multi": [0, 8, 9, 10, 29, 32, 41, 57, 124], "agent": [0, 4, 27, 39, 41, 43, 44, 46, 47, 48, 52, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 124], "reinforc": [0, 124], "learn": [0, 4, 6, 19, 20, 22, 29, 32, 33, 34, 35, 37, 39, 78, 107, 108, 114, 121, 124], "environ": [0, 4, 20, 27, 32, 36, 38, 39, 41, 42, 43, 44, 46, 62, 65, 68, 69, 70, 71, 72, 73, 74, 75, 77, 109, 113, 115, 116, 117, 119, 120, 123, 124], "The": [0, 4, 6, 8, 9, 10, 23, 27, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 41, 43, 44, 46, 52, 57, 59, 61, 64, 66, 68, 69, 70, 71, 76, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 124], "goal": [0, 124], "provid": [0, 8, 9, 10, 20, 23, 29, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 101, 109, 115, 117, 120, 124], "modular": [0, 124], "extens": [0, 123, 124], "framework": [0, 85, 124], "polici": [0, 4, 6, 14, 19, 20, 21, 24, 27, 31, 34, 35, 37, 39, 41, 43, 44, 57, 59, 61, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "fine": [0, 124], "tune": [0, 124], "ad": [0, 6, 8, 9, 10, 29, 35, 41, 43, 44, 57, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "hoc": [0, 124], "pair": [0, 19, 20, 36, 124], "more": [0, 8, 9, 10, 29, 57, 76, 123, 124], "built": [0, 124], "support": [0, 3, 39, 41, 43, 44, 68, 69, 70, 71, 77, 100, 109, 115, 117, 120, 124], "stabl": [0, 4, 27, 123, 124], "baselines3": [0, 4, 27, 123, 124], "sb3": [0, 31, 39, 47, 124], "allow": [0, 8, 9, 10, 29, 57, 124], "direct": [0, 8, 9, 10, 29, 57, 124], "access": [0, 8, 9, 10, 29, 39, 57, 124], "mani": [0, 124], "": [0, 4, 6, 8, 9, 10, 20, 27, 29, 34, 35, 36, 37, 39, 41, 43, 44, 50, 51, 52, 53, 57, 64, 68, 69, 70, 71, 77, 109, 112, 113, 114, 115, 117, 120, 121, 124], "standard": [0, 29, 31, 33, 38, 124], "rl": [0, 4, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "algorithm": [0, 1, 2, 4, 6, 19, 20, 25, 26, 27, 29, 31, 33, 34, 35, 38, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "ppo": [0, 3, 4, 8, 9, 27, 29, 35, 57, 124], "current": [0, 4, 8, 9, 10, 21, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "follow": [0, 8, 9, 10, 29, 31, 38, 57, 123, 124], "decentr": [0, 124], "paradigm": [0, 39, 124], "each": [0, 4, 8, 9, 10, 20, 27, 29, 32, 33, 39, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 124], "equip": [0, 124], "its": [0, 6, 8, 9, 10, 29, 35, 39, 52, 57, 124], "own": [0, 8, 9, 10, 29, 57, 124], "replai": [0, 124], "buffer": [0, 4, 6, 8, 9, 10, 27, 29, 35, 36, 57, 66, 124], "updat": [0, 4, 6, 8, 9, 10, 27, 29, 32, 33, 34, 35, 36, 37, 57, 78, 107, 108, 114, 121, 123, 124], "object": [0, 4, 8, 9, 10, 20, 21, 22, 23, 27, 29, 36, 39, 41, 43, 44, 46, 57, 66, 68, 69, 70, 71, 77, 86, 88, 90, 91, 92, 96, 97, 99, 100, 109, 115, 117, 120, 124], "ar": [0, 6, 8, 9, 10, 29, 32, 33, 34, 35, 39, 41, 42, 43, 44, 46, 52, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 124], "design": [0, 8, 9, 10, 29, 57, 124], "easili": [0, 124], "manipul": [0, 124], "thei": [0, 8, 9, 10, 29, 57, 124], "can": [0, 4, 8, 9, 10, 20, 23, 27, 29, 32, 33, 36, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 123, 124], "save": [0, 4, 6, 8, 9, 10, 20, 24, 27, 29, 35, 49, 57, 66, 124], "load": [0, 4, 8, 9, 20, 24, 27, 29, 57, 124], "plug": [0, 124], "differ": [0, 4, 8, 9, 10, 27, 29, 57, 124], "procedur": [0, 124], "self": [0, 8, 9, 10, 20, 29, 57, 124], "plai": [0, 124], "cross": [0, 124], "round": [0, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "robin": [0, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "finetun": [0, 8, 9, 10, 29, 57, 124], "collect": [1, 4, 11, 27, 34, 39, 41, 43, 44, 56, 65, 68, 69, 70, 71, 74, 77, 109, 115, 117, 120], "implement": [2, 3, 8, 9, 10, 18, 25, 26, 28, 29, 39, 41, 43, 44, 57, 65, 68, 69, 70, 71, 75, 77, 88, 89, 90, 91, 92, 95, 96, 109, 112, 115, 117, 118, 120], "derek": 2, "2021": [2, 25, 75], "paper": [2, 25, 29, 57, 75, 118, 119, 124], "http": [2, 4, 19, 25, 27, 39, 41, 43, 44, 49, 52, 54, 68, 69, 70, 71, 75, 77, 109, 115, 117, 120, 123, 124], "arxiv": [2, 25], "org": [2, 25, 124], "ab": [2, 25], "2107": 2, "07506": 2, "modifi": [3, 8, 9, 10, 29, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "class": [3, 4, 5, 6, 7, 8, 9, 10, 19, 20, 21, 22, 23, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 41, 43, 44, 45, 46, 49, 50, 51, 52, 53, 56, 57, 65, 66, 67, 68, 69, 70, 71, 76, 77, 78, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 106, 107, 108, 109, 113, 114, 115, 116, 117, 119, 120, 121], "env": [4, 8, 9, 10, 27, 29, 38, 39, 41, 43, 44, 57, 62, 68, 69, 70, 71, 72, 73, 124], "learning_r": [4, 27], "0": [4, 8, 9, 10, 15, 16, 17, 20, 22, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 92, 98, 100, 109, 115, 117, 120], "0003": [4, 27], "n_step": [4, 27, 41, 43, 44, 64, 68, 69, 70, 71, 77, 109, 115, 117, 120], "2048": [4, 27], "batch_siz": [4, 27, 52], "64": [4, 27, 57], "n_epoch": [4, 20, 23, 27], "10": [4, 27, 99, 103, 121, 123], "gamma": [4, 27], "99": [4, 27], "gae_lambda": [4, 27], "95": [4, 27], "clip_rang": [4, 27], "2": [4, 8, 9, 10, 27, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "clip_range_vf": [4, 27], "none": [4, 6, 8, 9, 10, 20, 23, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 48, 57, 64, 66, 68, 69, 70, 71, 77, 97, 99, 109, 115, 117, 120], "normalize_advantag": 4, "true": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 99, 103, 104, 109, 110, 115, 117, 120], "ent_coef": [4, 27], "vf_coef": [4, 27], "5": [4, 27, 44, 115], "max_grad_norm": [4, 27], "use_sd": [4, 8, 9, 27, 29], "fals": [4, 8, 9, 10, 12, 13, 15, 16, 17, 27, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120], "sde_sample_freq": [4, 27], "1": [4, 8, 9, 10, 15, 16, 27, 29, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 98, 109, 115, 117, 120, 121], "target_kl": [4, 27], "stats_window_s": 4, "100": [4, 8, 9, 10, 20, 29, 57], "tensorboard_log": [4, 27], "policy_kwarg": [4, 20, 27], "verbos": [4, 27], "seed": [4, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "devic": [4, 8, 9, 10, 20, 24, 27, 29, 57], "auto": [4, 8, 9, 20, 24, 27, 29, 57], "_init_setup_model": [4, 27], "context_loss_coeff": 4, "context_s": [4, 8, 9, 10], "3": [4, 8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123, 124], "num_context_sampl": 4, "context_sampl": 4, "l2": [4, 12, 20], "num_state_sampl": 4, "32": [4, 20, 57], "sourc": [4, 6, 8, 9, 10, 12, 13, 14, 15, 16, 17, 18, 20, 21, 22, 23, 24, 27, 29, 32, 33, 34, 35, 36, 37, 39, 40, 41, 42, 43, 44, 46, 47, 48, 50, 51, 52, 53, 54, 55, 57, 58, 59, 60, 61, 62, 63, 64, 66, 67, 68, 69, 70, 71, 72, 73, 77, 78, 80, 81, 82, 83, 84, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 107, 108, 109, 110, 111, 114, 115, 117, 120, 121], "base": [4, 6, 8, 9, 10, 20, 21, 22, 23, 27, 29, 31, 32, 33, 34, 35, 36, 37, 38, 39, 41, 43, 44, 46, 50, 51, 52, 53, 57, 66, 67, 68, 69, 70, 71, 77, 78, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 107, 108, 109, 114, 115, 117, 120, 121, 123], "onpolicyalgorithm": [4, 6, 27, 35], "borrow": 4, "from": [4, 6, 8, 9, 10, 12, 13, 16, 17, 20, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 49, 51, 52, 53, 57, 59, 68, 69, 70, 71, 77, 78, 99, 101, 107, 108, 109, 114, 115, 117, 120, 121, 123], "proxim": 4, "optim": [4, 8, 9, 10, 20, 29, 57], "clip": [4, 61], "version": [4, 8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 76, 77, 99, 106, 109, 110, 115, 117, 120, 124], "method": [4, 6, 8, 9, 10, 20, 21, 22, 23, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 49, 50, 51, 52, 53, 57, 66, 67, 68, 69, 70, 71, 77, 78, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 102, 103, 104, 105, 107, 108, 109, 114, 115, 117, 120, 121], "attribut": [4, 8, 9, 10, 20, 21, 27, 29, 39, 41, 43, 44, 46, 51, 52, 53, 57, 68, 69, 70, 71, 77, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 98, 109, 115, 117, 120], "paramet": [4, 6, 8, 9, 10, 14, 18, 20, 21, 22, 23, 24, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 47, 48, 51, 52, 53, 55, 57, 59, 60, 61, 62, 63, 64, 66, 68, 69, 70, 71, 72, 73, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "actorcriticpolici": [4, 8, 27, 37, 57, 59, 61], "vecenv": [4, 27], "str": [4, 8, 9, 10, 20, 24, 27, 29, 39, 41, 43, 44, 52, 55, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "float": [4, 6, 8, 9, 10, 20, 22, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "callabl": [4, 8, 9, 10, 20, 22, 23, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "int": [4, 8, 9, 10, 20, 23, 27, 29, 39, 41, 43, 44, 57, 60, 63, 64, 66, 68, 69, 70, 71, 72, 77, 109, 115, 117, 120], "bool": [4, 6, 8, 9, 10, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "dict": [4, 8, 9, 10, 20, 23, 27, 29, 39, 41, 43, 44, 52, 54, 55, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ani": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "collect_rollout": [4, 27], "callback": [4, 6, 20, 23, 27, 34, 35], "rollout_buff": [4, 27], "n_rollout_step": [4, 27], "rollout": [4, 27, 52], "us": [4, 6, 8, 9, 10, 20, 23, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 47, 48, 54, 55, 57, 58, 61, 64, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 123], "fill": [4, 27, 66, 68, 70, 89, 99, 103, 104], "rolloutbuff": [4, 27], "term": 4, "here": [4, 20], "refer": [4, 8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123], "model": [4, 6, 8, 9, 10, 14, 27, 29, 34, 35, 57, 64], "free": 4, "notion": 4, "should": [4, 8, 9, 10, 23, 27, 29, 33, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "concept": 4, "plan": 4, "basecallback": [4, 27], "call": [4, 6, 8, 9, 10, 20, 22, 23, 27, 29, 32, 33, 34, 35, 36, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 78, 99, 107, 108, 109, 114, 115, 117, 120, 121], "step": [4, 6, 27, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 64, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "begin": [4, 8, 9, 27, 29, 57], "end": [4, 8, 9, 10, 20, 23, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 92, 99, 109, 115, 117, 120], "number": [4, 6, 8, 9, 10, 15, 20, 23, 27, 29, 34, 35, 39, 41, 43, 44, 57, 64, 68, 69, 70, 71, 77, 109, 115, 117, 120], "experi": [4, 27, 31], "per": [4, 27], "return": [4, 6, 8, 9, 10, 15, 18, 20, 22, 24, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 47, 48, 50, 51, 52, 53, 54, 55, 57, 59, 60, 61, 62, 63, 64, 66, 67, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "function": [4, 6, 8, 9, 10, 11, 19, 23, 27, 29, 34, 35, 36, 39, 41, 43, 44, 45, 46, 49, 56, 57, 65, 68, 69, 70, 71, 77, 79, 85, 106, 109, 110, 115, 117, 120], "least": [4, 27], "termin": [4, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "prematur": [4, 27], "type": [4, 6, 8, 9, 10, 18, 20, 24, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 45, 47, 48, 49, 50, 51, 52, 53, 54, 55, 57, 59, 60, 61, 63, 64, 66, 67, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_env": [4, 27], "defin": [4, 5, 7, 8, 9, 10, 27, 29, 31, 36, 38, 39, 49, 57, 98], "get_paramet": [4, 8, 9, 10, 27, 29, 57], "thi": [4, 8, 9, 10, 20, 22, 27, 29, 31, 33, 34, 36, 38, 39, 41, 43, 44, 49, 52, 54, 55, 57, 65, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123, 124], "includ": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "network": [4, 8, 9, 10, 27, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "e": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123], "g": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 88, 89, 90, 91, 92, 95, 96, 109, 115, 117, 120], "critic": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 59, 68, 69, 70, 71, 77, 109, 115, 117, 120], "valu": [4, 8, 9, 10, 23, 27, 29, 39, 41, 43, 44, 46, 52, 54, 57, 59, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "pi": [4, 27], "map": [4, 8, 9, 10, 20, 27, 29, 55, 57], "name": [4, 6, 8, 9, 10, 20, 27, 29, 34, 35, 39, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "pytorch": [4, 8, 9, 18, 27, 29, 57], "state": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_vec_normalize_env": [4, 27], "vecnorm": [4, 27], "wrapper": [4, 18, 27, 33, 36, 39, 41, 43, 44, 77, 109, 115, 116, 117, 120], "exist": [4, 8, 9, 10, 27, 29, 39, 57], "total_timestep": [4, 27], "log_interv": [4, 6, 20, 27, 34, 35], "tb_log_nam": [4, 6, 27, 34, 35], "reset_num_timestep": [4, 27], "progress_bar": [4, 27], "total": [4, 27, 115], "sampl": [4, 8, 9, 12, 13, 16, 17, 20, 27, 29, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "list": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "everi": [4, 8, 9, 10, 20, 23, 27, 29, 41, 43, 44, 54, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "episod": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "befor": [4, 8, 9, 10, 20, 27, 29, 57], "log": [4, 6, 8, 9, 20, 27, 29, 34, 35, 57], "run": [4, 8, 9, 10, 20, 24, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 82, 109, 115, 117, 120], "tensorboard": [4, 6, 27, 34, 35], "whether": [4, 6, 8, 9, 10, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "reset": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "timestep": [4, 6, 27, 34, 35, 39, 41, 43, 44, 52, 64, 68, 69, 70, 71, 77, 82, 109, 115, 117, 120], "displai": [4, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 97, 99, 100, 101, 109, 115, 117, 120], "progress": [4, 23, 27], "bar": [4, 27], "tqdm": [4, 23, 27], "rich": [4, 27], "classmethod": [4, 8, 9, 27, 29, 51, 52, 53, 57], "path": [4, 8, 9, 10, 20, 24, 27, 29, 57], "custom_object": [4, 27], "print_system_info": [4, 27], "force_reset": [4, 27], "kwarg": [4, 6, 8, 9, 10, 27, 29, 34, 35, 57, 101], "zip": [4, 27], "file": [4, 27, 41, 43, 44, 50, 51, 52, 53, 67, 68, 69, 70, 71, 77, 109, 115, 117, 120], "warn": [4, 27, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "re": [4, 8, 9, 10, 27, 29, 57, 99, 103], "creat": [4, 8, 9, 10, 27, 29, 39, 57, 101, 123], "scratch": [4, 27], "doe": [4, 27, 37, 39], "place": [4, 8, 9, 10, 20, 27, 29, 57, 111], "For": [4, 8, 9, 10, 27, 29, 39, 57], "an": [4, 6, 8, 9, 10, 20, 23, 27, 29, 31, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 52, 55, 57, 58, 59, 66, 68, 69, 70, 71, 77, 78, 88, 89, 90, 91, 92, 95, 96, 97, 98, 99, 100, 107, 108, 109, 114, 115, 117, 120, 121], "set_paramet": [4, 27], "instead": [4, 8, 9, 10, 27, 29, 33, 39, 57], "bufferediobas": [4, 27], "like": [4, 8, 9, 10, 27, 29, 57], "where": [4, 8, 9, 24, 27, 29, 52, 57, 66, 76], "new": [4, 6, 8, 9, 10, 22, 23, 27, 29, 32, 33, 34, 35, 39, 41, 43, 44, 57, 60, 66, 68, 69, 70, 71, 77, 78, 98, 107, 108, 109, 114, 115, 117, 120, 121], "you": [4, 8, 9, 10, 27, 29, 39, 57, 123], "onli": [4, 8, 9, 10, 27, 29, 41, 43, 44, 47, 57, 68, 69, 70, 71, 77, 100, 109, 115, 117, 120, 123], "need": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "predict": [4, 8, 9, 27, 29, 57], "ha": [4, 8, 9, 10, 24, 27, 29, 34, 39, 41, 43, 44, 52, 57, 64, 68, 69, 70, 71, 77, 109, 110, 115, 117, 120, 123], "prioriti": [4, 27], "over": [4, 8, 9, 10, 23, 27, 29, 57], "which": [4, 8, 9, 10, 20, 24, 27, 29, 39, 41, 43, 44, 54, 57, 64, 68, 69, 70, 71, 77, 109, 110, 115, 117, 120], "code": [4, 27, 29, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "dictionari": [4, 8, 9, 10, 20, 27, 29, 39, 57], "replac": [4, 27, 110], "upon": [4, 27], "If": [4, 8, 9, 10, 20, 27, 29, 32, 33, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "variabl": [4, 27], "present": [4, 27, 124], "kei": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "deseri": [4, 27], "correspond": [4, 6, 8, 9, 10, 27, 29, 32, 33, 35, 57, 78, 107, 108, 114, 121], "item": [4, 27, 54], "similar": [4, 8, 9, 10, 27, 29, 57], "kera": [4, 27], "load_model": [4, 27], "when": [4, 8, 9, 10, 27, 29, 34, 39, 40, 41, 42, 43, 44, 52, 57, 58, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120], "have": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 67, 68, 69, 70, 71, 77, 109, 115, 117, 120], "print": [4, 8, 9, 10, 27, 29, 57], "system": [4, 27], "info": [4, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "debug": [4, 27], "issu": [4, 27], "forc": [4, 27], "avoid": [4, 8, 9, 10, 27, 29, 39, 57], "unexpect": [4, 8, 9, 10, 27, 29, 57], "behavior": [4, 8, 9, 10, 20, 27, 29, 57], "see": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 54, 57, 68, 69, 70, 71, 76, 77, 109, 115, 117, 120], "github": [4, 19, 27, 49, 52, 75, 123, 124], "com": [4, 19, 27, 49, 52, 54, 123, 124], "dlr": [4, 27], "rm": [4, 27], "597": [4, 27], "extra": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "argument": [4, 8, 9, 10, 20, 27, 29, 55, 57], "chang": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "instanc": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 52, 55, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "selfbasealgorithm": [4, 27], "properti": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "logger": [4, 27], "getter": [4, 8, 9, 27, 29, 57], "observ": [4, 6, 8, 9, 10, 19, 20, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 52, 57, 59, 60, 62, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "episode_start": [4, 8, 9, 27, 29, 57], "determinist": [4, 8, 9, 10, 27, 29, 57], "get": [4, 8, 9, 14, 21, 27, 29, 39, 41, 43, 44, 57, 67, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120, 123], "action": [4, 6, 8, 9, 10, 19, 20, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 48, 52, 57, 59, 61, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "option": [4, 6, 8, 9, 10, 20, 27, 29, 34, 35, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123], "hidden": [4, 8, 9, 27, 29, 57], "sugar": [4, 8, 9, 27, 29, 57], "coat": [4, 8, 9, 27, 29, 57], "handl": [4, 8, 9, 10, 27, 29, 57], "normal": [4, 8, 9, 27, 29, 57], "imag": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 97, 109, 115, 117, 120], "ndarrai": [4, 6, 8, 9, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 46, 47, 48, 51, 52, 53, 55, 57, 59, 61, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "input": [4, 8, 9, 10, 27, 29, 57], "tupl": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 48, 57, 59, 68, 69, 70, 71, 77, 109, 115, 117, 120], "last": [4, 6, 8, 9, 27, 29, 32, 33, 35, 57, 66, 78, 107, 108, 114, 121], "recurr": [4, 8, 9, 27, 29, 57], "mask": [4, 8, 9, 27, 29, 46, 48, 57], "rnn": [4, 8, 9, 27, 29, 57], "must": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "next": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "exclud": [4, 20, 27, 29], "all": [4, 8, 9, 10, 23, 27, 29, 32, 41, 43, 44, 46, 50, 57, 67, 68, 69, 70, 71, 77, 109, 115, 117, 120], "iter": [4, 8, 9, 10, 20, 23, 27, 29, 57], "addit": [4, 8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "default": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 57, 62, 66, 68, 69, 70, 71, 74, 77, 78, 107, 109, 114, 115, 117, 120], "ones": [4, 8, 9, 10, 27, 29, 57], "might": [4, 27, 64], "anywai": [4, 27], "set_env": [4, 27], "set": [4, 8, 9, 10, 20, 21, 22, 23, 27, 29, 39, 41, 42, 43, 44, 57, 68, 69, 70, 71, 77, 88, 89, 90, 91, 92, 95, 96, 98, 99, 109, 115, 117, 120], "set_logg": [4, 27], "setter": [4, 27], "pass": [4, 8, 9, 10, 20, 27, 29, 39, 57], "custom": [4, 8, 9, 10, 27, 29, 39, 55, 57], "overwrit": [4, 27, 29], "constructor": [4, 20, 27, 76, 78], "load_path_or_dict": [4, 27], "exact_match": [4, 27], "given": [4, 6, 8, 9, 10, 27, 29, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 50, 51, 52, 53, 57, 59, 62, 64, 66, 67, 68, 69, 70, 71, 72, 73, 77, 78, 97, 107, 108, 109, 114, 115, 117, 120, 121], "nest": [4, 8, 9, 10, 27, 29, 57], "contain": [4, 8, 9, 10, 20, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "modul": [4, 5, 7, 8, 9, 10, 27, 29, 31, 38, 49, 57, 65, 121], "load_path_or_it": [4, 27], "locat": [4, 8, 9, 27, 29, 57], "data": [4, 20, 23, 27, 49, 52, 55], "nn": [4, 8, 9, 10, 27, 29, 57], "torch": [4, 8, 9, 10, 20, 27, 29, 52, 55, 57], "state_dict": [4, 8, 9, 10, 27, 29, 57], "otherwis": [4, 8, 9, 10, 27, 29, 39, 44, 57, 70, 77, 109, 115], "rais": [4, 8, 9, 10, 27, 29, 39, 40, 41, 42, 43, 44, 57, 58, 68, 69, 70, 71, 77, 109, 115, 117, 120], "except": [4, 27, 38, 39, 40, 41, 42, 43, 44, 56, 57, 58, 68, 69, 70, 71, 77, 109, 115, 117, 120], "specif": [4, 27, 29, 31, 39, 41, 43, 44, 68, 69, 70, 71, 77, 100, 101, 109, 115, 117, 120], "tensor": [4, 8, 9, 10, 18, 20, 27, 29, 55, 57, 59], "set_random_se": [4, 27], "pseudo": [4, 27], "random": [4, 8, 9, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 81, 109, 110, 111, 115, 117, 120, 121], "gener": [4, 19, 27, 39, 41, 43, 44, 68, 69, 70, 71, 77, 79, 81, 109, 110, 115, 117, 120], "python": [4, 27, 123], "numpi": [4, 20, 27, 39, 47, 54, 59, 121], "gym": [4, 27, 29, 33, 39, 41, 43, 44, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120], "action_spac": [4, 8, 9, 20, 27, 29, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "gather": [4, 27], "partner": [5, 29, 41, 43, 44, 50, 51, 53, 68, 69, 70, 71, 77, 78, 107, 108, 109, 115, 117, 120], "working_timestep": [6, 34, 35], "1000": [6, 34, 35], "latent_sync": 6, "onpolicyag": [6, 31, 39], "repres": [6, 10, 34, 35, 36, 37, 39, 41, 43, 44, 59, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_act": [6, 32, 33, 34, 35, 36, 37, 78, 107, 108, 114, 121], "interv": [6, 34, 35], "estim": [6, 8, 9, 29, 34, 35, 57], "fed": [6, 8, 9, 29, 34, 35, 57], "adappolici": [6, 9, 14], "ob": [6, 8, 9, 20, 29, 32, 33, 34, 35, 36, 37, 46, 52, 53, 57, 59, 78, 107, 108, 114, 121], "transit": [6, 8, 9, 10, 20, 29, 31, 35, 36, 50, 51, 52, 53, 57, 67, 69, 71], "It": [6, 8, 9, 10, 29, 31, 35, 38, 39, 57], "also": [6, 8, 9, 10, 23, 29, 31, 34, 35, 36, 38, 39, 57, 123], "full": [6, 18, 35, 46, 47, 48, 77], "take": [6, 8, 9, 29, 32, 33, 34, 35, 36, 37, 44, 57, 78, 107, 108, 114, 121], "reward": [6, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "done": [6, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "add": [6, 8, 9, 10, 29, 32, 33, 34, 35, 41, 43, 44, 57, 66, 68, 69, 70, 71, 77, 78, 88, 89, 90, 91, 92, 95, 96, 99, 107, 108, 109, 114, 115, 117, 120, 121], "inform": [6, 8, 9, 10, 29, 32, 33, 34, 35, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 123], "entri": [6, 8, 9, 10, 29, 35, 57], "most": [6, 32, 33, 35, 39, 41, 43, 44, 49, 66, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "recent": [6, 32, 33, 35, 66, 78, 107, 108, 114, 121], "record": [6, 8, 9, 10, 29, 31, 35, 36, 57, 65, 67, 69, 71, 73], "receiev": [6, 32, 33, 34, 35, 36, 37, 78, 107, 108, 114, 121], "previou": [6, 32, 33, 34, 35, 36, 37, 39, 41, 43, 44, 52, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "game": [6, 32, 33, 34, 35, 36, 37, 41, 43, 44, 78, 107, 108, 112, 114, 118, 121], "observation_spac": [8, 9, 20, 27, 29, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "lr_schedul": [8, 9, 29], "net_arch": [8, 9, 10, 29], "activation_fn": [8, 9, 10, 29], "activ": [8, 9, 29, 64, 123], "tanh": [8, 9, 29], "ortho_init": [8, 9, 29], "log_std_init": [8, 9, 29], "full_std": [8, 9, 29], "use_expln": [8, 9, 29], "squash_output": [8, 9, 29, 57], "features_extractor_class": [8, 9, 29], "stable_baselines3": [8, 9, 29, 57], "common": [8, 9, 20, 29, 124], "torch_lay": [8, 9, 29], "flattenextractor": [8, 9, 29], "features_extractor_kwarg": [8, 9, 29], "share_features_extractor": [8, 9], "normalize_imag": [8, 9, 29], "optimizer_class": [8, 9, 29], "adam": [8, 9, 20, 29], "optimizer_kwarg": [8, 9, 20, 29], "actor": [8, 9, 29, 36, 57, 59], "initi": [8, 9, 10, 20, 29, 34, 35, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "intern": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "share": [8, 9, 10, 29, 57], "both": [8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "scriptmodul": [8, 9, 10, 29, 57], "space": [8, 9, 20, 29, 39, 41, 43, 44, 57, 58, 60, 61, 63, 68, 69, 70, 71, 77, 109, 115, 117, 120], "basefeaturesextractor": [8, 9, 29, 57], "__call__": [8, 9, 10, 22, 29, 57], "arg": [8, 9, 10, 20, 22, 23, 24, 29, 39, 57], "add_modul": [8, 9, 10, 29, 57], "child": [8, 9, 10, 29, 57], "appli": [8, 9, 10, 19, 20, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "fn": [8, 9, 10, 29, 57], "recurs": [8, 9, 10, 29, 57, 123], "submodul": [8, 9, 10, 29, 57, 123], "children": [8, 9, 10, 29, 57], "well": [8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "typic": [8, 9, 10, 29, 39, 46, 57], "init": [8, 9, 10, 29, 57, 123], "doc": [8, 9, 10, 29, 57, 123], "exampl": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "no_grad": [8, 9, 10, 29, 57], "def": [8, 9, 10, 29, 57], "init_weight": [8, 9, 10, 29, 57], "m": [8, 9, 10, 29, 57], "linear": [8, 9, 10, 29, 57], "weight": [8, 9, 10, 20, 24, 29, 57, 121], "fill_": [8, 9, 10, 29, 57], "net": [8, 9, 10, 29, 57], "sequenti": [8, 9, 10, 29, 57], "in_featur": [8, 9, 10, 29, 57], "out_featur": [8, 9, 10, 29, 57], "bia": [8, 9, 10, 29, 57], "requires_grad": [8, 9, 10, 29, 57], "t": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 76, 77, 109, 115, 117, 120], "bfloat16": [8, 9, 10, 29, 57], "cast": [8, 9, 10, 29, 57], "point": [8, 9, 10, 29, 34, 35, 57], "datatyp": [8, 9, 10, 29, 57], "yield": [8, 9, 10, 20, 29, 57], "member": [8, 9, 10, 29, 57], "xdoctest": [8, 9, 10, 29, 57], "skip": [8, 9, 10, 29, 57], "undefin": [8, 9, 10, 29, 57], "var": [8, 9, 10, 29, 57, 110], "buf": [8, 9, 10, 29, 57], "size": [8, 9, 10, 20, 29, 57, 66], "20l": [8, 9, 10, 29, 57], "1l": [8, 9, 10, 29, 57], "5l": [8, 9, 10, 29, 57], "immedi": [8, 9, 10, 20, 29, 57], "cpu": [8, 9, 10, 29, 57], "move": [8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "cuda": [8, 9, 10, 29, 57], "gpu": [8, 9, 10, 29, 57], "make": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "associ": [8, 9, 10, 29, 33, 57], "so": [8, 9, 10, 23, 29, 57], "construct": [8, 9, 10, 20, 29, 33, 41, 43, 44, 51, 52, 53, 57, 68, 69, 70, 71, 72, 73, 77, 102, 103, 104, 105, 109, 115, 117, 120], "live": [8, 9, 10, 29, 57], "while": [8, 9, 10, 29, 57], "being": [8, 9, 10, 29, 57], "specifi": [8, 9, 10, 29, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "copi": [8, 9, 10, 29, 54, 57], "infer": [8, 9, 29, 31, 57], "inspect": [8, 9, 29, 57], "fallback": [8, 9, 29, 57], "doubl": [8, 9, 10, 29, 57], "eval": [8, 9, 10, 29, 57], "evalu": [8, 9, 10, 29, 57], "mode": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "effect": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "certain": [8, 9, 10, 29, 57, 115], "document": [8, 9, 10, 29, 57], "particular": [8, 9, 10, 29, 57], "detail": [8, 9, 10, 29, 57], "affect": [8, 9, 10, 29, 57], "dropout": [8, 9, 10, 29, 57], "batchnorm": [8, 9, 10, 29, 57], "etc": [8, 9, 10, 29, 57, 110], "equival": [8, 9, 10, 29, 57], "local": [8, 9, 10, 29, 57], "disabl": [8, 9, 10, 29, 57, 86, 87, 93, 94, 98], "grad": [8, 9, 10, 29, 57], "comparison": [8, 9, 10, 29, 57], "between": [8, 9, 10, 16, 29, 57], "sever": [8, 9, 10, 29, 57], "mechan": [8, 9, 10, 29, 57], "mai": [8, 9, 10, 29, 34, 35, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "confus": [8, 9, 10, 29, 57], "evaluate_act": [8, 9, 29, 57], "accord": [8, 9, 29, 57], "likelihood": [8, 9, 29, 57], "those": [8, 9, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "entropi": [8, 9, 20, 29, 39, 57], "distribut": [8, 9, 13, 18, 29, 57], "extra_repr": [8, 9, 10, 29, 57], "represent": [8, 9, 10, 29, 39, 41, 43, 44, 46, 57, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "To": [8, 9, 10, 29, 57, 123], "your": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "singl": [8, 9, 10, 29, 39, 41, 43, 44, 46, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "line": [8, 9, 10, 29, 39, 57, 93, 94, 96, 99], "string": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "accept": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "extract_featur": [8, 9, 29, 57], "preprocess": [8, 9, 29, 57], "extract": [8, 9, 29, 41, 43, 44, 47, 48, 54, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "featur": [8, 9, 10, 29, 57, 123], "output": [8, 9, 10, 29, 36, 57], "extractor": [8, 9, 29, 39, 57], "forward": [8, 9, 10, 29, 57], "probabl": [8, 9, 29, 44, 57], "get_buff": [8, 9, 10, 29, 57], "target": [8, 9, 10, 29, 57], "throw": [8, 9, 10, 29, 57], "error": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "docstr": [8, 9, 10, 29, 57], "get_submodul": [8, 9, 10, 29, 57], "explan": [8, 9, 10, 29, 57], "how": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "correctli": [8, 9, 10, 29, 39, 57], "fulli": [8, 9, 10, 29, 57], "qualifi": [8, 9, 10, 29, 57], "look": [8, 9, 10, 29, 57], "referenc": [8, 9, 10, 29, 57], "attributeerror": [8, 9, 10, 29, 57], "invalid": [8, 9, 10, 29, 57], "resolv": [8, 9, 10, 29, 57], "someth": [8, 9, 10, 29, 57], "get_context": [8, 9], "context": [8, 9, 10, 15, 29, 57], "get_distribut": [8, 9, 57], "get_extra_st": [8, 9, 10, 29, 57], "set_extra_st": [8, 9, 10, 29, 57], "store": [8, 9, 10, 29, 36, 50, 51, 53, 57], "build": [8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "note": [8, 9, 10, 29, 34, 35, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123], "picklabl": [8, 9, 10, 29, 57], "ensur": [8, 9, 10, 29, 39, 57], "work": [8, 9, 10, 29, 57], "serial": [8, 9, 10, 29, 57], "we": [8, 9, 10, 29, 39, 57, 123], "backward": [8, 9, 10, 29, 57], "compat": [8, 9, 10, 29, 52, 57], "guarante": [8, 9, 10, 29, 57], "other": [8, 9, 10, 20, 29, 57], "break": [8, 9, 10, 29, 57], "pickl": [8, 9, 10, 29, 57], "form": [8, 9, 10, 18, 29, 57], "let": [8, 9, 10, 29, 57], "sai": [8, 9, 10, 29, 57], "A": [8, 9, 10, 22, 23, 29, 36, 39, 41, 43, 44, 52, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "net_b": [8, 9, 10, 29, 57], "net_c": [8, 9, 10, 29, 57], "conv": [8, 9, 10, 29, 57], "conv2d": [8, 9, 10, 29, 57], "16": [8, 9, 10, 29, 57], "33": [8, 9, 10, 29, 57], "kernel_s": [8, 9, 10, 29, 57], "stride": [8, 9, 10, 29, 57], "200": [8, 9, 10, 29, 57], "diagram": [8, 9, 10, 29, 57], "show": [8, 9, 10, 23, 29, 57, 97], "itself": [8, 9, 10, 29, 57], "two": [8, 9, 10, 29, 57, 83], "check": [8, 9, 10, 27, 29, 57, 83], "would": [8, 9, 10, 29, 57], "runtim": [8, 9, 10, 29, 57], "bound": [8, 9, 10, 29, 57, 99], "degre": [8, 9, 10, 29, 57], "queri": [8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "against": [8, 9, 10, 29, 57], "named_modul": [8, 9, 10, 29, 57], "achiev": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "same": [8, 9, 10, 29, 32, 33, 36, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121, 123], "result": [8, 9, 10, 29, 57], "o": [8, 9, 10, 29, 57], "n": [8, 9, 10, 29, 57, 123], "simpl": [8, 9, 10, 29, 57, 97, 107, 108, 109, 116], "some": [8, 9, 10, 19, 20, 29, 39, 57], "alwai": [8, 9, 10, 29, 57, 120], "abov": [8, 9, 10, 29, 39, 57], "half": [8, 9, 10, 29, 57], "static": [8, 9, 29, 37, 57], "gain": [8, 9, 29, 57], "orthogon": [8, 9, 29, 57], "a2c": [8, 9, 27, 29, 35, 57], "ipu": [8, 9, 10, 29, 57], "is_vectorized_observ": [8, 9, 29, 57], "vector": [8, 9, 15, 27, 29, 57], "transposit": [8, 9, 29, 57], "channel": [8, 9, 29, 57], "first": [8, 9, 29, 39, 41, 43, 44, 57, 66, 68, 69, 70, 71, 77, 109, 115, 117, 120], "dqn": [8, 9, 29, 34, 57], "epsilon": [8, 9, 29, 57], "greedi": [8, 9, 29, 57], "selfbasemodel": [8, 9, 29, 57], "load_from_vector": [8, 9, 29, 57], "1d": [8, 9, 29, 57], "load_state_dict": [8, 9, 10, 29, 57], "strict": [8, 9, 10, 29, 57], "descend": [8, 9, 10, 29, 57], "exactli": [8, 9, 10, 20, 23, 29, 57], "match": [8, 9, 10, 29, 57], "persist": [8, 9, 10, 29, 57], "strictli": [8, 9, 10, 29, 57], "enforc": [8, 9, 10, 29, 57], "namedtupl": [8, 9, 10, 29, 57], "missing_kei": [8, 9, 10, 29, 57], "unexpected_kei": [8, 9, 10, 29, 57], "field": [8, 9, 10, 29, 52, 54, 57], "miss": [8, 9, 10, 29, 57], "regist": [8, 9, 10, 29, 57], "runtimeerror": [8, 9, 10, 29, 57], "make_features_extractor": [8, 9, 29, 57], "helper": [8, 9, 11, 29, 57], "duplic": [8, 9, 10, 29, 57], "onc": [8, 9, 10, 29, 57], "In": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "l": [8, 9, 10, 29, 57], "idx": [8, 9, 10, 29, 57], "enumer": [8, 9, 10, 29, 57], "named_buff": [8, 9, 10, 29, 57], "prefix": [8, 9, 10, 29, 57], "remove_dupl": [8, 9, 10, 29, 57], "prepend": [8, 9, 10, 29, 57], "remov": [8, 9, 10, 29, 39, 57], "running_var": [8, 9, 10, 29, 57], "named_children": [8, 9, 10, 29, 57], "conv4": [8, 9, 10, 29, 57], "conv5": [8, 9, 10, 29, 57], "memo": [8, 9, 10, 29, 57], "alreadi": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "named_paramet": [8, 9, 10, 29, 57], "param": [8, 9, 10, 18, 29, 57], "obs_to_tensor": [8, 9, 29, 57], "convert": [8, 9, 10, 20, 29, 57, 100], "parameters_to_vector": [8, 9, 29, 57], "predict_valu": [8, 9, 57], "register_backward_hook": [8, 9, 10, 29, 57], "hook": [8, 9, 10, 29, 57], "deprec": [8, 9, 10, 29, 57], "favor": [8, 9, 10, 29, 57], "register_full_backward_hook": [8, 9, 10, 29, 57], "futur": [8, 9, 10, 29, 57], "util": [8, 9, 10, 20, 29, 55], "removablehandl": [8, 9, 10, 29, 57], "register_buff": [8, 9, 10, 29, 57], "consid": [8, 9, 10, 29, 57], "running_mean": [8, 9, 10, 29, 57], "part": [8, 9, 10, 29, 57], "alongsid": [8, 9, 10, 29, 57], "non": [8, 9, 10, 27, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "latter": [8, 9, 10, 29, 57], "oper": [8, 9, 10, 29, 57], "ignor": [8, 9, 10, 29, 57], "zero": [8, 9, 10, 29, 57], "num_featur": [8, 9, 10, 29, 57], "register_forward_hook": [8, 9, 10, 29, 57], "with_kwarg": [8, 9, 10, 29, 57], "time": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120], "after": [8, 9, 10, 20, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "comput": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "posit": [8, 9, 10, 29, 57], "keyword": [8, 9, 10, 20, 29, 57], "won": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "inplac": [8, 9, 10, 29, 57], "sinc": [8, 9, 10, 29, 37, 57], "signatur": [8, 9, 10, 29, 57], "expect": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "possibli": [8, 9, 10, 29, 52, 57], "user": [8, 9, 10, 29, 31, 33, 36, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120], "fire": [8, 9, 10, 29, 57], "global": [8, 9, 10, 29, 57], "register_module_forward_hook": [8, 9, 10, 29, 57], "register_forward_pre_hook": [8, 9, 10, 29, 57], "pre": [8, 9, 10, 29, 57], "invok": [8, 9, 10, 29, 57], "either": [8, 9, 10, 20, 29, 57], "wrap": [8, 9, 10, 23, 27, 29, 31, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "unless": [8, 9, 10, 29, 57], "And": [8, 9, 10, 29, 57], "forward_pr": [8, 9, 10, 29, 57], "register_module_forward_pre_hook": [8, 9, 10, 29, 57], "gradient": [8, 9, 10, 29, 57], "respect": [8, 9, 10, 29, 57], "execut": [8, 9, 10, 29, 57], "grad_input": [8, 9, 10, 29, 57], "grad_output": [8, 9, 10, 29, 57], "subsequ": [8, 9, 10, 29, 57], "technic": [8, 9, 10, 29, 57], "reason": [8, 9, 10, 29, 57], "receiv": [8, 9, 10, 29, 44, 46, 57], "view": [8, 9, 10, 29, 57, 99], "similarli": [8, 9, 10, 29, 57], "caller": [8, 9, 10, 29, 57], "register_module_full_backward_hook": [8, 9, 10, 29, 57], "register_full_backward_pre_hook": [8, 9, 10, 29, 57], "backward_pr": [8, 9, 10, 29, 57], "register_module_full_backward_pre_hook": [8, 9, 10, 29, 57], "register_load_state_dict_post_hook": [8, 9, 10, 29, 57], "post": [8, 9, 10, 29, 57], "incompatible_kei": [8, 9, 10, 29, 57], "consist": [8, 9, 10, 29, 57], "perform": [8, 9, 10, 29, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "modif": [8, 9, 10, 29, 57], "thrown": [8, 9, 10, 29, 57], "clear": [8, 9, 10, 29, 57], "out": [8, 9, 10, 29, 57], "register_modul": [8, 9, 10, 29, 57], "alia": [8, 9, 10, 29, 57], "register_paramet": [8, 9, 10, 29, 57], "register_state_dict_pre_hook": [8, 9, 10, 29, 57], "These": [8, 9, 10, 29, 57], "keep_var": [8, 9, 10, 29, 57], "process": [8, 9, 10, 23, 29, 39, 57], "made": [8, 9, 10, 20, 29, 57], "requires_grad_": [8, 9, 10, 29, 57], "autograd": [8, 9, 10, 29, 57], "help": [8, 9, 10, 29, 57], "freez": [8, 9, 10, 29, 57], "individu": [8, 9, 10, 29, 57], "gan": [8, 9, 10, 29, 57], "reset_nois": [8, 9, 57], "n_env": [8, 9, 57], "explor": [8, 9, 29, 39, 57], "matrix": [8, 9, 57], "scale_act": [8, 9, 29, 57], "rescal": [8, 9, 29, 57], "low": [8, 9, 29, 57], "high": [8, 9, 29, 57], "symmetr": [8, 9, 29, 57], "scale": [8, 9, 20, 29, 57, 98], "set_context": [8, 9], "ctxt": [8, 9], "found": [8, 9, 10, 29, 57], "within": [8, 9, 10, 29, 57, 123], "set_training_mod": [8, 9, 29, 57], "put": [8, 9, 29, 57], "batch": [8, 9, 20, 23, 29, 55, 57], "normalis": [8, 9, 29, 57], "els": [8, 9, 29, 57], "share_memori": [8, 9, 10, 29, 57], "share_memory_": [8, 9, 10, 29, 57], "destin": [8, 9, 10, 29, 57], "whole": [8, 9, 10, 29, 57], "averag": [8, 9, 10, 29, 57], "shallow": [8, 9, 10, 29, 57], "order": [8, 9, 10, 29, 57], "howev": [8, 9, 10, 29, 39, 57], "releas": [8, 9, 10, 29, 57], "pleas": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ordereddict": [8, 9, 10, 29, 57], "compos": [8, 9, 10, 29, 57], "detach": [8, 9, 10, 29, 57], "dtype": [8, 9, 10, 29, 57], "non_block": [8, 9, 10, 29, 57], "memory_format": [8, 9, 10, 29, 57], "channels_last": [8, 9, 10, 29, 57], "Its": [8, 9, 10, 29, 57], "complex": [8, 9, 10, 29, 57, 76], "integr": [8, 9, 10, 29, 57], "unchang": [8, 9, 10, 29, 57], "tri": [8, 9, 10, 29, 57], "asynchron": [8, 9, 10, 29, 57], "host": [8, 9, 10, 29, 57], "possibl": [8, 9, 10, 29, 39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "pin": [8, 9, 10, 29, 57], "memori": [8, 9, 10, 29, 57], "below": [8, 9, 10, 29, 57], "desir": [8, 9, 10, 29, 57], "whose": [8, 9, 10, 29, 52, 57], "format": [8, 9, 10, 29, 57], "4d": [8, 9, 10, 29, 57], "ignore_w": [8, 9, 10, 29, 57], "1913": [8, 9, 10, 29, 57], "3420": [8, 9, 10, 29, 57], "5113": [8, 9, 10, 29, 57], "2325": [8, 9, 10, 29, 57], "float64": [8, 9, 10, 29, 57], "requir": [8, 9, 10, 29, 52, 57], "torch_doctest_cuda1": [8, 9, 10, 29, 57], "gpu1": [8, 9, 10, 29, 57], "1914": [8, 9, 10, 29, 57], "5112": [8, 9, 10, 29, 57], "2324": [8, 9, 10, 29, 57], "float16": [8, 9, 10, 29, 57], "cdoubl": [8, 9, 10, 29, 57], "3741": [8, 9, 10, 29, 57], "j": [8, 9, 10, 29, 57], "2382": [8, 9, 10, 29, 57], "5593": [8, 9, 10, 29, 57], "4443": [8, 9, 10, 29, 57], "complex128": [8, 9, 10, 29, 57], "6122": [8, 9, 10, 29, 57], "1150": [8, 9, 10, 29, 57], "to_empti": [8, 9, 10, 29, 57], "without": [8, 9, 10, 23, 29, 57], "storag": [8, 9, 10, 29, 57], "dst_type": [8, 9, 10, 29, 57], "unscale_act": [8, 9, 29, 57], "scaled_act": [8, 9, 29, 57], "un": [8, 9, 29, 57], "xpu": [8, 9, 10, 29, 57], "zero_grad": [8, 9, 10, 29, 57], "set_to_non": [8, 9, 10, 29, 57], "under": [8, 9, 10, 29, 57], "multipl": [9, 10, 32, 33, 41, 43, 44, 50, 68, 69, 70, 71, 77, 78, 100, 107, 108, 109, 114, 115, 117, 120, 121], "feature_dim": 10, "neural": 10, "layer": [10, 57], "logit": [10, 29], "forward_actor": 10, "forward_crit": 10, "respons": [10, 37], "ctx_size": [12, 13, 15, 16, 17], "num": [12, 13, 15, 16, 17], "use_torch": [12, 13, 15, 16, 17], "sphere": 12, "categor": 13, "train_batch": 14, "kl": [14, 18], "loss": 14, "rolloutbuffersampl": 14, "shape": [15, 39, 41, 43, 44, 52, 68, 69, 70, 71, 77, 109, 115, 117, 120], "rang": 15, "squar": [16, 17], "ax": 16, "unit": [17, 57], "center": 17, "dist_tru": 18, "dist_pr": 18, "diverg": 18, "p": [18, 121], "q": 18, "behaviour": [19, 36], "clone": [19, 20, 123], "supervis": [19, 20], "fix": 19, "dataset": [19, 20, 52, 55], "expert": [19, 20], "demonstr": [19, 124], "humancompatibleai": [19, 49, 52], "imit": [19, 20, 49, 52], "blob": [19, 49, 52], "master": [19, 49, 52], "src": [19, 49, 52], "py": [19, 36, 41, 43, 44, 49, 52, 68, 69, 70, 71, 77, 109, 115, 117, 120, 121], "policy_class": 20, "feedforward32polici": [20, 21], "expert_data": 20, "optimizer_cl": 20, "ent_weight": 20, "001": [20, 22], "l2_weight": 20, "recov": 20, "via": [20, 52], "dataload": [20, 23, 55], "ducktyp": 20, "instanti": [20, 52], "set_expert_data_load": 20, "dure": [20, 34, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "optimis": 20, "rate": [20, 22, 29], "decai": 20, "regular": 20, "ident": [20, 34, 35], "basepolici": [20, 24, 29], "transitionsminim": [20, 36, 50, 51, 53, 55], "default_batch_s": 20, "automat": [20, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "save_polici": [20, 24], "policy_path": [20, 24], "patorch": 20, "reload": [20, 24], "reconstruct_polici": 20, "loader": [20, 23], "act": [20, 41, 43, 44, 52, 53, 68, 69, 70, 71, 77, 109, 115, 117, 120], "demand": 20, "dagger": 20, "interact": [20, 38, 124], "arrai": [20, 39, 47, 52, 54, 59, 97, 99], "shuffl": 20, "n_batch": [20, 23], "on_epoch_end": [20, 23], "on_batch_end": [20, 23], "epoch": [20, 23], "just": [20, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "complet": 20, "through": [20, 23, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "one": [20, 23, 34, 35, 39, 41, 43, 44, 68, 69, 70, 71, 77, 99, 109, 115, 117, 120, 123], "stat": 20, "shell": 21, "get_polici": 21, "set_polici": 21, "new_polici": 21, "lr": 22, "constant": [22, 29], "_": 22, "set_lr": 22, "new_lr": 22, "data_load": 23, "loop": 23, "stdout": 23, "__iter__": 23, "set_data_load": 23, "new_data_load": 23, "reconstruct": 24, "been": [24, 39, 41, 43, 44, 52, 64, 67, 68, 69, 70, 71, 77, 109, 115, 117, 120], "shih": [25, 124], "2104": 25, "02871": 25, "marginal_reg_coef": 27, "On": 27, "ex": [27, 34, 35], "partner_idx": [27, 29], "valid": [27, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "coher": 27, "furthermor": 27, "modularalgorithm": 28, "sde_net_arch": 29, "num_partn": 29, "partner_net_arch": 29, "baselin": 29, "nomain": 29, "schedul": 29, "could": [29, 61], "depend": [29, 39, 123], "deviat": 29, "n_featur": 29, "x": [29, 39, 41, 43, 44, 68, 69, 70, 71, 77, 82, 84, 96, 109, 110, 115, 117, 120], "n_action": 29, "std": 29, "gsde": 29, "architectur": 29, "latent": 29, "empti": [29, 52, 66], "expln": 29, "exp": 29, "cf": 29, "keep": 29, "varianc": 29, "prevent": 29, "grow": 29, "too": 29, "fast": 29, "practic": 29, "usual": [29, 39, 41, 43, 44, 52, 68, 69, 70, 71, 77, 109, 115, 117, 120], "enough": [29, 34], "squash": 29, "boundari": 29, "divid": 29, "255": 29, "build_mlp_action_value_net": 29, "input_dim": 29, "do_init_weight": 29, "init_main": 29, "init_partn": 29, "action_mask": [29, 46], "features_extractor": 29, "get_action_logits_from_ob": 29, "make_action_dist_net": 29, "latent_dim_pi": 29, "latent_sde_dim": 29, "overwrite_main": 29, "main": 29, "set_freeze_main": 29, "unfreez": 29, "set_freeze_modul": 29, "set_freeze_partn": 29, "core": 30, "abstract": [31, 32, 38, 41, 43, 44, 50, 67], "dummyag": 31, "sarl": [31, 33, 38], "face": 31, "offpolicyag": [31, 39], "staticpolicyag": 31, "pure": 31, "recordingagentwrapp": 31, "abc": [32, 41, 43, 44, 50, 67], "sum": [32, 33, 78, 107, 108, 114, 121], "up": [32, 33, 39, 41, 43, 44, 68, 69, 70, 71, 77, 78, 107, 108, 109, 114, 115, 117, 120, 121], "flag": [32, 33, 51, 53, 78, 107, 108, 114, 121], "dummy_env": 33, "assum": [33, 39], "interfac": [33, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "directli": [33, 39, 49], "dummi": [33, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "construct_single_agent_interfac": [33, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "multiagentenv": [33, 72, 73, 117], "dummyenv": [33, 38, 40], "off": 34, "sac": 34, "offpolicyalgorithm": 34, "still": [34, 35], "continu": [34, 35, 39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "beyond": [34, 35], "behav": [34, 35], "correct": [34, 35], "determin": 34, "realag": 36, "simultaneousrecord": 36, "turnbasedrecord": 36, "get_transit": [36, 67, 69, 71], "simpli": 36, "noth": 37, "simultaneousenv": [38, 51, 65, 68, 69, 120], "turnbasedenv": [38, 53, 65, 70, 71, 77, 109, 115], "conveni": [38, 102, 103, 104, 105], "playerexcept": 38, "killenvexcept": 38, "base_env": [39, 117], "agent_ind": 39, "extract_ob": [39, 41], "basic": 39, "caution": 39, "try": 39, "separ": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "thread": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "manag": 39, "potenti": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "deadlock": 39, "strongli": 39, "advis": 39, "our": 39, "player": [39, 41, 42, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "larger": 39, "usabl": 39, "By": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "transform": 39, "partial": [39, 46, 47, 48], "close": [39, 41, 43, 44, 68, 69, 70, 71, 77, 96, 97, 99, 109, 115, 117, 120], "finish": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "necessari": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "clean": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "render": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "window": [39, 41, 43, 44, 68, 69, 70, 71, 77, 99, 101, 109, 115, 117, 120], "databas": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "connect": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_wrapper_attr": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "np_random": [39, 41, 43, 44, 68, 69, 70, 71, 77, 80, 81, 109, 110, 111, 115, 117, 120, 121], "_np_random": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "initialis": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "np": [39, 41, 43, 44, 52, 68, 69, 70, 71, 77, 109, 115, 117, 120], "frame": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "render_mod": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "metadata": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "wai": [39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "gymnasium": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "As": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "known": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "__init__": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 121], "convent": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "human": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "consumpt": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "occur": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "doesn": [39, 41, 43, 44, 68, 69, 70, 71, 76, 77, 109, 115, 117, 120], "rgb_arrai": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "y": [39, 41, 43, 44, 68, 69, 70, 71, 77, 84, 109, 115, 117, 120], "rgb": [39, 41, 43, 44, 68, 69, 70, 71, 77, 97, 99, 109, 115, 117, 120], "pixel": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ansi": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "stringio": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "style": [39, 41, 43, 44, 68, 69, 70, 71, 77, 93, 109, 115, 117, 120], "text": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "newlin": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "escap": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "sequenc": [39, 41, 43, 44, 55, 68, 69, 70, 71, 77, 109, 115, 117, 120], "color": [39, 41, 43, 44, 68, 69, 70, 71, 77, 84, 88, 89, 90, 91, 92, 95, 96, 109, 115, 117, 120], "rgb_array_list": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ansi_list": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "rendercollect": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "pop": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "sure": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "25": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "wa": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 124], "longer": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "rather": [39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "cartpol": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "v1": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "start": [39, 41, 43, 44, 68, 69, 70, 71, 77, 92, 99, 109, 115, 117, 120], "often": 39, "generalis": 39, "about": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "control": 39, "rng": 39, "therefor": 39, "case": 39, "right": [39, 99], "never": 39, "again": 39, "super": 39, "v0": 39, "return_info": 39, "now": 39, "prng": 39, "chosen": 39, "timestamp": 39, "dev": 39, "urandom": 39, "integ": [39, 52], "even": 39, "want": 39, "minim": 39, "obstyp": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "element": [39, 52, 66], "analog": 39, "auxiliari": 39, "complement": 39, "perspect": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ego": [39, 41, 43, 44, 50, 51, 53, 68, 69, 70, 71, 77, 109, 115, 117, 120], "final": [39, 41, 43, 44, 57, 68, 69, 70, 71, 77, 109, 115, 117, 120], "latest": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120, 123], "especi": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "turn": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "amount": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "truncat": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "unwrap": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "acttyp": [39, 41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "kill": 40, "ego_ind": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "n_player": 41, "resample_polici": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ego_extractor": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "resampl": [41, 43, 44, 64, 68, 69, 70, 71, 77, 109, 115, 117, 120], "set_resample_polici": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "choos": [41, 43, 44, 46, 52], "add_partner_ag": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "player_num": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "randomli": [41, 43, 44, 68, 69, 70, 71, 77, 80, 109, 115, 117, 120], "them": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "spawn": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "custom_sarl": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "appropri": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "around": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_dummy_env": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "get_ego_ind": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "n_reset": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "along": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "alt": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "renderfram": [41, 43, 44, 68, 69, 70, 71, 109, 115, 117, 120], "resample_nul": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "do": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "resample_random": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "resample_round_robin": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "set_ego_extractor": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "set_ego_ind": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "new_ind": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "silence_partner_warn": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "index": [41, 43, 44, 52, 68, 69, 70, 71, 77, 109, 115, 117, 120], "suppress": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "set_partnerid": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "agent_id": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "resample_partn": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "null": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "involv": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "ego_step": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "alt_step": [41, 43, 44, 68, 69, 70, 71, 77, 109, 115, 117, 120], "incorrectli": 42, "simultan": [43, 68], "multi_reset": [43, 44, 68, 69, 70, 71, 77, 109, 115, 120], "give": [43, 44, 68, 70, 77, 109, 115, 120], "multi_step": [43, 68, 69, 120], "ego_act": [43, 68, 69, 120], "alt_act": [43, 68, 69, 120], "probegostart": [44, 115], "egofirst": [44, 70, 71, 77, 109, 115], "definit": [45, 113, 115, 119, 120], "relat": [45, 49], "what": 46, "legal": 46, "permit": 46, "mappo": 48, "trajectori": 49, "come": 49, "repo": [49, 52], "get_alt_transit": [50, 51, 53], "get_ego_transit": [50, 51, 53], "write_transit": [50, 51, 52, 53, 67, 69, 71], "write": [50, 51, 52, 53, 67, 69, 71], "egoob": 51, "egoact": 51, "altob": 51, "altact": 51, "multitransit": [51, 53, 67], "read_transit": [51, 52, 53], "obs_spac": [51, 52, 53], "act_spac": [51, 52, 53], "subclass": [52, 88, 89, 90, 91, 92, 95, 96], "flatten_trajectori": 52, "tran": 52, "th": 52, "dataclass": [52, 54], "ith": 52, "slice": 52, "action_shap": 52, "observation_shap": 52, "seen": 52, "preced": 52, "dataclass_inst": 54, "comprehens": 54, "quick": 54, "altern": 54, "asdict": 54, "expens": 54, "undocumentedli": 54, "deep": 54, "stackoverflow": 54, "52229565": 54, "1091722": 54, "collate_fn": 55, "feed": 57, "irl": 57, "origin": 57, "airl": 57, "than": 57, "illeg": 58, "log_prob": 59, "numfram": [60, 68, 70, 72], "framestack": [60, 65, 66, 72], "raw": 61, "outsid": 61, "basealgorithm": [61, 64], "length": [63, 66, 102], "nois": 64, "sde": 64, "defaultelem": 66, "ring": 66, "histori": 66, "queue": 66, "toadd": 66, "overrid": 66, "oldest": 66, "defaultel": 66, "defaultob": [68, 70], "stack": [68, 70], "old": [68, 70], "segment": [68, 70], "multirecord": [69, 71], "simultaneoustransit": 69, "embed": [69, 71], "altenv": 70, "defaultaltob": 70, "turnbasedtransit": 71, "block": [75, 76, 80, 84, 110, 111], "world": [75, 79, 81, 110], "mccarthi": 75, "cogtoolslab": 75, "io": 75, "pdf": 75, "mccarthy_cogsci_2021b": 75, "beforehand": 76, "deal": 79, "grid": [79, 83, 84, 111], "graviti": [79, 110], "width": [80, 81, 91, 94, 96, 99, 101, 102], "gridworld": [80, 82, 84, 110], "num_color": [80, 81], "drop": 80, "num_block": [81, 110], "orient": [82, 84], "simul": 82, "grid1": 83, "grid2": 83, "2d": 85, "enabl": [86, 87, 93, 94, 98], "vec4": 87, "attr": [87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 98, 99], "geom": [88, 89, 91, 92, 95, 96, 99], "geometri": [88, 89, 90, 91, 92, 95, 96, 99], "add_attr": [88, 89, 90, 91, 92, 95, 96], "render1": [88, 89, 90, 91, 92, 95, 96], "set_color": [88, 89, 90, 91, 92, 95, 96], "r": [88, 89, 90, 91, 92, 95, 96, 121], "b": [88, 89, 90, 91, 92, 95, 96], "v": [89, 96, 99, 104, 105], "polygon": [89, 99, 104], "fname": 91, "height": [91, 99, 101], "stroke": 94, "set_linewidth": 96, "maxwidth": 97, "500": 97, "viewer": 97, "imshow": 97, "arr": 97, "translat": 98, "rotat": 98, "opengl": 98, "set_rot": 98, "set_scal": 98, "newx": 98, "newi": 98, "set_transl": 98, "earli": 99, "add_geom": 99, "scene": 99, "add_onetim": 99, "draw_circl": 99, "radiu": [99, 103], "30": [99, 103], "draw": 99, "circl": [99, 103], "draw_lin": 99, "draw_polygon": 99, "draw_polylin": 99, "polylin": [99, 105], "get_arrai": 99, "return_rgb_arrai": 99, "set_bound": 99, "left": 99, "bottom": 99, "top": 99, "window_closed_by_us": 99, "spec": 100, "actual": 100, "pyglet": [100, 101], "linux": 100, "Will": [101, 110], "capsul": 102, "simplifi": 106, "blockworld": [106, 107, 108, 109], "easi": 108, "gridlen": 110, "liar": 112, "dice": [112, 113, 114, 115], "hand": 115, "bluff": 115, "belief": 115, "pet": [116, 117], "zoo": [116, 117], "aec": 117, "rock": [118, 119], "scissor": [118, 119], "opt": 121, "homebrew": 121, "caskroom": 121, "miniforg": 121, "pantheonrl_dev": 121, "lib": 121, "python3": 121, "site": 121, "recommend": 123, "virtual": 123, "8": 123, "conda": 123, "pantheonrl": 123, "contribut": 123, "git": 123, "stanford": [123, 124], "iliad": [123, 124], "cd": 123, "pip": 123, "directori": 123, "overcooked_extens": 123, "group": 123, "classic": 123, "demo": 124, "aaai": 124, "22": 124, "program": 124, "sarkar2022": 124, "repositori": 124, "13221": 124, "marl": 124, "librari": 124, "dynam": 124, "video": 124, "youtu": 124, "pf3zh_hpo": 124, "inproceed": 124, "sarkar2022pantheonrl": 124, "titl": 124, "author": 124, "sarkar": 124, "bidipta": 124, "talati": 124, "aditi": 124, "andi": 124, "sadigh": 124, "dorsa": 124, "booktitl": 124, "proceed": 124, "36th": 124, "confer": 124, "artifici": 124, "intellig": 124, "track": 124, "year": 124, "2022": 124, "instal": 124, "prerequisit": 124, "develop": 124, "pettingzoo": 124, "algo": 124}, "objects": {"": [[0, 0, 0, "-", "pantheonrl"]], "pantheonrl": [[1, 0, 0, "-", "algos"], [30, 0, 0, "-", "common"], [74, 0, 0, "-", "envs"]], "pantheonrl.algos": [[2, 0, 0, "-", "adap"], [19, 0, 0, "-", "bc"], [25, 0, 0, "-", "modular"]], "pantheonrl.algos.adap": [[3, 0, 0, "-", "adap_learn"], [5, 0, 0, "-", "agent"], [7, 0, 0, "-", "policies"], [11, 0, 0, "-", "util"]], "pantheonrl.algos.adap.adap_learn": [[4, 1, 1, "", "ADAP"]], "pantheonrl.algos.adap.adap_learn.ADAP": [[4, 2, 1, "", "collect_rollouts"], [4, 2, 1, "", "get_env"], [4, 2, 1, "", "get_parameters"], [4, 2, 1, "", "get_vec_normalize_env"], [4, 2, 1, "", "learn"], [4, 2, 1, "", "load"], [4, 3, 1, "", "logger"], [4, 2, 1, "", "predict"], [4, 2, 1, "", "save"], [4, 2, 1, "", "set_env"], [4, 2, 1, "", "set_logger"], [4, 2, 1, "", "set_parameters"], [4, 2, 1, "", "set_random_seed"], [4, 2, 1, "", "train"]], "pantheonrl.algos.adap.agent": [[6, 1, 1, "", "AdapAgent"]], "pantheonrl.algos.adap.agent.AdapAgent": [[6, 2, 1, "", "get_action"], [6, 2, 1, "", "learn"], [6, 2, 1, "", "update"]], "pantheonrl.algos.adap.policies": [[8, 1, 1, "", "AdapPolicy"], [9, 1, 1, "", "AdapPolicyMult"], [10, 1, 1, "", "MultModel"]], "pantheonrl.algos.adap.policies.AdapPolicy": [[8, 2, 1, "", "__call__"], [8, 2, 1, "", "add_module"], [8, 2, 1, "", "apply"], [8, 2, 1, "", "bfloat16"], [8, 2, 1, "", "buffers"], [8, 2, 1, "", "children"], [8, 2, 1, "", "cpu"], [8, 2, 1, "", "cuda"], [8, 3, 1, "", "device"], [8, 2, 1, "", "double"], [8, 2, 1, "", "eval"], [8, 2, 1, "", "evaluate_actions"], [8, 2, 1, "", "extra_repr"], [8, 2, 1, "", "extract_features"], [8, 2, 1, "", "float"], [8, 2, 1, "", "forward"], [8, 2, 1, "", "get_buffer"], [8, 2, 1, "", "get_context"], [8, 2, 1, "", "get_distribution"], [8, 2, 1, "", "get_extra_state"], [8, 2, 1, "", "get_parameter"], [8, 2, 1, "", "get_submodule"], [8, 2, 1, "", "half"], [8, 2, 1, "", "init_weights"], [8, 2, 1, "", "ipu"], [8, 2, 1, "", "is_vectorized_observation"], [8, 2, 1, "", "load"], [8, 2, 1, "", "load_from_vector"], [8, 2, 1, "", "load_state_dict"], [8, 2, 1, "", "make_features_extractor"], [8, 2, 1, "", "modules"], [8, 2, 1, "", "named_buffers"], [8, 2, 1, "", "named_children"], [8, 2, 1, "", "named_modules"], [8, 2, 1, "", "named_parameters"], [8, 2, 1, "", "obs_to_tensor"], [8, 2, 1, "", "parameters"], [8, 2, 1, "", "parameters_to_vector"], [8, 2, 1, "", "predict"], [8, 2, 1, "", "predict_values"], [8, 2, 1, "", "register_backward_hook"], [8, 2, 1, "", "register_buffer"], [8, 2, 1, "", "register_forward_hook"], [8, 2, 1, "", "register_forward_pre_hook"], [8, 2, 1, "", "register_full_backward_hook"], [8, 2, 1, "", "register_full_backward_pre_hook"], [8, 2, 1, "", "register_load_state_dict_post_hook"], [8, 2, 1, "", "register_module"], [8, 2, 1, "", "register_parameter"], [8, 2, 1, "", "register_state_dict_pre_hook"], [8, 2, 1, "", "requires_grad_"], [8, 2, 1, "", "reset_noise"], [8, 2, 1, "", "save"], [8, 2, 1, "", "scale_action"], [8, 2, 1, "", "set_context"], [8, 2, 1, "", "set_extra_state"], [8, 2, 1, "", "set_training_mode"], [8, 2, 1, "", "share_memory"], [8, 3, 1, "", "squash_output"], [8, 2, 1, "", "state_dict"], [8, 2, 1, "", "to"], [8, 2, 1, "", "to_empty"], [8, 2, 1, "", "train"], [8, 2, 1, "", "type"], [8, 2, 1, "", "unscale_action"], [8, 2, 1, "", "xpu"], [8, 2, 1, "", "zero_grad"]], "pantheonrl.algos.adap.policies.AdapPolicyMult": [[9, 2, 1, "", "__call__"], [9, 2, 1, "", "add_module"], [9, 2, 1, "", "apply"], [9, 2, 1, "", "bfloat16"], [9, 2, 1, "", "buffers"], [9, 2, 1, "", "children"], [9, 2, 1, "", "cpu"], [9, 2, 1, "", "cuda"], [9, 3, 1, "", "device"], [9, 2, 1, "", "double"], [9, 2, 1, "", "eval"], [9, 2, 1, "", "evaluate_actions"], [9, 2, 1, "", "extra_repr"], [9, 2, 1, "", "extract_features"], [9, 2, 1, "", "float"], [9, 2, 1, "", "forward"], [9, 2, 1, "", "get_buffer"], [9, 2, 1, "", "get_context"], [9, 2, 1, "", "get_distribution"], [9, 2, 1, "", "get_extra_state"], [9, 2, 1, "", "get_parameter"], [9, 2, 1, "", "get_submodule"], [9, 2, 1, "", "half"], [9, 2, 1, "", "init_weights"], [9, 2, 1, "", "ipu"], [9, 2, 1, "", "is_vectorized_observation"], [9, 2, 1, "", "load"], [9, 2, 1, "", "load_from_vector"], [9, 2, 1, "", "load_state_dict"], [9, 2, 1, "", "make_features_extractor"], [9, 2, 1, "", "modules"], [9, 2, 1, "", "named_buffers"], [9, 2, 1, "", "named_children"], [9, 2, 1, "", "named_modules"], [9, 2, 1, "", "named_parameters"], [9, 2, 1, "", "obs_to_tensor"], [9, 2, 1, "", "parameters"], [9, 2, 1, "", "parameters_to_vector"], [9, 2, 1, "", "predict"], [9, 2, 1, "", "predict_values"], [9, 2, 1, "", "register_backward_hook"], [9, 2, 1, "", "register_buffer"], [9, 2, 1, "", "register_forward_hook"], [9, 2, 1, "", "register_forward_pre_hook"], [9, 2, 1, "", "register_full_backward_hook"], [9, 2, 1, "", "register_full_backward_pre_hook"], [9, 2, 1, "", "register_load_state_dict_post_hook"], [9, 2, 1, "", "register_module"], [9, 2, 1, "", "register_parameter"], [9, 2, 1, "", "register_state_dict_pre_hook"], [9, 2, 1, "", "requires_grad_"], [9, 2, 1, "", "reset_noise"], [9, 2, 1, "", "save"], [9, 2, 1, "", "scale_action"], [9, 2, 1, "", "set_context"], [9, 2, 1, "", "set_extra_state"], [9, 2, 1, "", "set_training_mode"], [9, 2, 1, "", "share_memory"], [9, 3, 1, "", "squash_output"], [9, 2, 1, "", "state_dict"], [9, 2, 1, "", "to"], [9, 2, 1, "", "to_empty"], [9, 2, 1, "", "train"], [9, 2, 1, "", "type"], [9, 2, 1, "", "unscale_action"], [9, 2, 1, "", "xpu"], [9, 2, 1, "", "zero_grad"]], "pantheonrl.algos.adap.policies.MultModel": [[10, 2, 1, "", "__call__"], [10, 2, 1, "", "add_module"], [10, 2, 1, "", "apply"], [10, 2, 1, "", "bfloat16"], [10, 2, 1, "", "buffers"], [10, 2, 1, "", "children"], [10, 2, 1, "", "cpu"], [10, 2, 1, "", "cuda"], [10, 2, 1, "", "double"], [10, 2, 1, "", "eval"], [10, 2, 1, "", "extra_repr"], [10, 2, 1, "", "float"], [10, 2, 1, "", "forward"], [10, 2, 1, "", "forward_actor"], [10, 2, 1, "", "forward_critic"], [10, 2, 1, "", "get_buffer"], [10, 2, 1, "", "get_extra_state"], [10, 2, 1, "", "get_parameter"], [10, 2, 1, "", "get_submodule"], [10, 2, 1, "", "half"], [10, 2, 1, "", "ipu"], [10, 2, 1, "", "load_state_dict"], [10, 2, 1, "", "modules"], [10, 2, 1, "", "named_buffers"], [10, 2, 1, "", "named_children"], [10, 2, 1, "", "named_modules"], [10, 2, 1, "", "named_parameters"], [10, 2, 1, "", "parameters"], [10, 2, 1, "", "policies"], [10, 2, 1, "", "register_backward_hook"], [10, 2, 1, "", "register_buffer"], [10, 2, 1, "", "register_forward_hook"], [10, 2, 1, "", "register_forward_pre_hook"], [10, 2, 1, "", "register_full_backward_hook"], [10, 2, 1, "", "register_full_backward_pre_hook"], [10, 2, 1, "", "register_load_state_dict_post_hook"], [10, 2, 1, "", "register_module"], [10, 2, 1, "", "register_parameter"], [10, 2, 1, "", "register_state_dict_pre_hook"], [10, 2, 1, "", "requires_grad_"], [10, 2, 1, "", "set_extra_state"], [10, 2, 1, "", "share_memory"], [10, 2, 1, "", "state_dict"], [10, 2, 1, "", "to"], [10, 2, 1, "", "to_empty"], [10, 2, 1, "", "train"], [10, 2, 1, "", "type"], [10, 2, 1, "", "values"], [10, 2, 1, "", "xpu"], [10, 2, 1, "", "zero_grad"]], "pantheonrl.algos.adap.util": [[13, 4, 1, "", "get_categorical"], [14, 4, 1, "", "get_context_kl_loss"], [12, 4, 1, "", "get_l2_sphere"], [15, 4, 1, "", "get_natural_number"], [16, 4, 1, "", "get_positive_square"], [17, 4, 1, "", "get_unit_square"], [18, 4, 1, "", "kl_divergence"]], "pantheonrl.algos.bc": [[20, 1, 1, "", "BC"], [21, 1, 1, "", "BCShell"], [22, 1, 1, "", "ConstantLRSchedule"], [23, 1, 1, "", "EpochOrBatchIteratorWithProgress"], [24, 4, 1, "", "reconstruct_policy"]], "pantheonrl.algos.bc.BC": [[20, 5, 1, "", "DEFAULT_BATCH_SIZE"], [20, 2, 1, "", "save_policy"], [20, 2, 1, "", "set_expert_data_loader"], [20, 2, 1, "", "train"]], "pantheonrl.algos.bc.BCShell": [[21, 2, 1, "", "get_policy"], [21, 2, 1, "", "set_policy"]], "pantheonrl.algos.bc.ConstantLRSchedule": [[22, 2, 1, "", "__call__"], [22, 2, 1, "", "set_lr"]], "pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress": [[23, 2, 1, "", "set_data_loader"]], "pantheonrl.algos.modular": [[26, 0, 0, "-", "learn"], [28, 0, 0, "-", "policies"]], "pantheonrl.algos.modular.learn": [[27, 1, 1, "", "ModularAlgorithm"]], "pantheonrl.algos.modular.learn.ModularAlgorithm": [[27, 2, 1, "", "collect_rollouts"], [27, 2, 1, "", "get_env"], [27, 2, 1, "", "get_parameters"], [27, 2, 1, "", "get_vec_normalize_env"], [27, 2, 1, "", "learn"], [27, 2, 1, "", "load"], [27, 3, 1, "", "logger"], [27, 2, 1, "", "predict"], [27, 2, 1, "", "save"], [27, 2, 1, "", "set_env"], [27, 2, 1, "", "set_logger"], [27, 2, 1, "", "set_parameters"], [27, 2, 1, "", "set_random_seed"], [27, 2, 1, "", "train"]], "pantheonrl.algos.modular.policies": [[29, 1, 1, "", "ModularPolicy"]], "pantheonrl.algos.modular.policies.ModularPolicy": [[29, 2, 1, "", "__call__"], [29, 2, 1, "", "add_module"], [29, 2, 1, "", "apply"], [29, 2, 1, "", "bfloat16"], [29, 2, 1, "", "buffers"], [29, 2, 1, "", "build_mlp_action_value_net"], [29, 2, 1, "", "children"], [29, 2, 1, "", "cpu"], [29, 2, 1, "", "cuda"], [29, 3, 1, "", "device"], [29, 2, 1, "", "do_init_weights"], [29, 2, 1, "", "double"], [29, 2, 1, "", "eval"], [29, 2, 1, "", "evaluate_actions"], [29, 2, 1, "", "extra_repr"], [29, 2, 1, "", "extract_features"], [29, 2, 1, "", "float"], [29, 2, 1, "", "forward"], [29, 2, 1, "", "get_action_logits_from_obs"], [29, 2, 1, "", "get_buffer"], [29, 2, 1, "", "get_extra_state"], [29, 2, 1, "", "get_parameter"], [29, 2, 1, "", "get_submodule"], [29, 2, 1, "", "half"], [29, 2, 1, "", "init_weights"], [29, 2, 1, "", "ipu"], [29, 2, 1, "", "is_vectorized_observation"], [29, 2, 1, "", "load"], [29, 2, 1, "", "load_from_vector"], [29, 2, 1, "", "load_state_dict"], [29, 2, 1, "", "make_action_dist_net"], [29, 2, 1, "", "make_features_extractor"], [29, 2, 1, "", "modules"], [29, 2, 1, "", "named_buffers"], [29, 2, 1, "", "named_children"], [29, 2, 1, "", "named_modules"], [29, 2, 1, "", "named_parameters"], [29, 2, 1, "", "obs_to_tensor"], [29, 2, 1, "", "overwrite_main"], [29, 2, 1, "", "parameters"], [29, 2, 1, "", "parameters_to_vector"], [29, 2, 1, "", "predict"], [29, 2, 1, "", "register_backward_hook"], [29, 2, 1, "", "register_buffer"], [29, 2, 1, "", "register_forward_hook"], [29, 2, 1, "", "register_forward_pre_hook"], [29, 2, 1, "", "register_full_backward_hook"], [29, 2, 1, "", "register_full_backward_pre_hook"], [29, 2, 1, "", "register_load_state_dict_post_hook"], [29, 2, 1, "", "register_module"], [29, 2, 1, "", "register_parameter"], [29, 2, 1, "", "register_state_dict_pre_hook"], [29, 2, 1, "", "requires_grad_"], [29, 2, 1, "", "save"], [29, 2, 1, "", "scale_action"], [29, 2, 1, "", "set_extra_state"], [29, 2, 1, "", "set_freeze_main"], [29, 2, 1, "", "set_freeze_module"], [29, 2, 1, "", "set_freeze_partner"], [29, 2, 1, "", "set_training_mode"], [29, 2, 1, "", "share_memory"], [29, 3, 1, "", "squash_output"], [29, 2, 1, "", "state_dict"], [29, 2, 1, "", "to"], [29, 2, 1, "", "to_empty"], [29, 2, 1, "", "train"], [29, 2, 1, "", "type"], [29, 2, 1, "", "unscale_action"], [29, 2, 1, "", "xpu"], [29, 2, 1, "", "zero_grad"]], "pantheonrl.common": [[31, 0, 0, "-", "agents"], [38, 0, 0, "-", "multiagentenv"], [45, 0, 0, "-", "observation"], [49, 0, 0, "-", "trajsaver"], [56, 0, 0, "-", "util"], [65, 0, 0, "-", "wrappers"]], "pantheonrl.common.agents": [[32, 1, 1, "", "Agent"], [33, 1, 1, "", "DummyAgent"], [34, 1, 1, "", "OffPolicyAgent"], [35, 1, 1, "", "OnPolicyAgent"], [36, 1, 1, "", "RecordingAgentWrapper"], [37, 1, 1, "", "StaticPolicyAgent"]], "pantheonrl.common.agents.Agent": [[32, 2, 1, "", "get_action"], [32, 2, 1, "", "update"]], "pantheonrl.common.agents.DummyAgent": [[33, 2, 1, "", "get_action"], [33, 2, 1, "", "update"]], "pantheonrl.common.agents.OffPolicyAgent": [[34, 2, 1, "", "get_action"], [34, 2, 1, "", "learn"], [34, 2, 1, "", "update"]], "pantheonrl.common.agents.OnPolicyAgent": [[35, 2, 1, "", "get_action"], [35, 2, 1, "", "learn"], [35, 2, 1, "", "update"]], "pantheonrl.common.agents.RecordingAgentWrapper": [[36, 2, 1, "", "get_action"], [36, 2, 1, "", "get_transitions"], [36, 2, 1, "", "update"]], "pantheonrl.common.agents.StaticPolicyAgent": [[37, 2, 1, "", "get_action"], [37, 2, 1, "", "update"]], "pantheonrl.common.multiagentenv": [[39, 1, 1, "", "DummyEnv"], [40, 6, 1, "", "KillEnvException"], [41, 1, 1, "", "MultiAgentEnv"], [42, 6, 1, "", "PlayerException"], [43, 1, 1, "", "SimultaneousEnv"], [44, 1, 1, "", "TurnBasedEnv"]], "pantheonrl.common.multiagentenv.DummyEnv": [[39, 2, 1, "", "close"], [39, 2, 1, "", "get_wrapper_attr"], [39, 3, 1, "", "np_random"], [39, 2, 1, "", "render"], [39, 2, 1, "", "reset"], [39, 2, 1, "", "step"], [39, 3, 1, "", "unwrapped"]], "pantheonrl.common.multiagentenv.MultiAgentEnv": [[41, 3, 1, "", "action_space"], [41, 2, 1, "", "add_partner_agent"], [41, 2, 1, "", "close"], [41, 2, 1, "", "construct_single_agent_interface"], [41, 2, 1, "", "get_dummy_env"], [41, 2, 1, "", "get_ego_ind"], [41, 2, 1, "", "get_wrapper_attr"], [41, 2, 1, "", "n_reset"], [41, 2, 1, "", "n_step"], [41, 3, 1, "", "np_random"], [41, 3, 1, "", "observation_space"], [41, 2, 1, "", "render"], [41, 2, 1, "", "resample_null"], [41, 2, 1, "", "resample_random"], [41, 2, 1, "", "resample_round_robin"], [41, 2, 1, "", "reset"], [41, 2, 1, "", "set_ego_extractor"], [41, 2, 1, "", "set_ego_ind"], [41, 2, 1, "", "set_partnerid"], [41, 2, 1, "", "set_resample_policy"], [41, 2, 1, "", "step"], [41, 3, 1, "", "unwrapped"]], "pantheonrl.common.multiagentenv.SimultaneousEnv": [[43, 3, 1, "", "action_space"], [43, 2, 1, "", "add_partner_agent"], [43, 2, 1, "", "close"], [43, 2, 1, "", "construct_single_agent_interface"], [43, 2, 1, "", "get_dummy_env"], [43, 2, 1, "", "get_ego_ind"], [43, 2, 1, "", "get_wrapper_attr"], [43, 2, 1, "", "multi_reset"], [43, 2, 1, "", "multi_step"], [43, 2, 1, "", "n_reset"], [43, 2, 1, "", "n_step"], [43, 3, 1, "", "np_random"], [43, 3, 1, "", "observation_space"], [43, 2, 1, "", "render"], [43, 2, 1, "", "resample_null"], [43, 2, 1, "", "resample_random"], [43, 2, 1, "", "resample_round_robin"], [43, 2, 1, "", "reset"], [43, 2, 1, "", "set_ego_extractor"], [43, 2, 1, "", "set_ego_ind"], [43, 2, 1, "", "set_partnerid"], [43, 2, 1, "", "set_resample_policy"], [43, 2, 1, "", "step"], [43, 3, 1, "", "unwrapped"]], "pantheonrl.common.multiagentenv.TurnBasedEnv": [[44, 3, 1, "", "action_space"], [44, 2, 1, "", "add_partner_agent"], [44, 2, 1, "", "alt_step"], [44, 2, 1, "", "close"], [44, 2, 1, "", "construct_single_agent_interface"], [44, 2, 1, "", "ego_step"], [44, 2, 1, "", "get_dummy_env"], [44, 2, 1, "", "get_ego_ind"], [44, 2, 1, "", "get_wrapper_attr"], [44, 2, 1, "", "multi_reset"], [44, 2, 1, "", "n_reset"], [44, 2, 1, "", "n_step"], [44, 3, 1, "", "np_random"], [44, 3, 1, "", "observation_space"], [44, 2, 1, "", "render"], [44, 2, 1, "", "resample_null"], [44, 2, 1, "", "resample_random"], [44, 2, 1, "", "resample_round_robin"], [44, 2, 1, "", "reset"], [44, 2, 1, "", "set_ego_extractor"], [44, 2, 1, "", "set_ego_ind"], [44, 2, 1, "", "set_partnerid"], [44, 2, 1, "", "set_resample_policy"], [44, 2, 1, "", "step"], [44, 3, 1, "", "unwrapped"]], "pantheonrl.common.observation": [[46, 1, 1, "", "Observation"], [47, 4, 1, "", "extract_obs"], [48, 4, 1, "", "extract_partial_obs"]], "pantheonrl.common.observation.Observation": [[46, 5, 1, "", "action_mask"], [46, 5, 1, "", "obs"], [46, 5, 1, "", "state"]], "pantheonrl.common.trajsaver": [[50, 1, 1, "", "MultiTransitions"], [51, 1, 1, "", "SimultaneousTransitions"], [52, 1, 1, "", "TransitionsMinimal"], [53, 1, 1, "", "TurnBasedTransitions"], [54, 4, 1, "", "dataclass_quick_asdict"], [55, 4, 1, "", "transitions_collate_fn"]], "pantheonrl.common.trajsaver.MultiTransitions": [[50, 2, 1, "", "get_alt_transitions"], [50, 2, 1, "", "get_ego_transitions"], [50, 2, 1, "", "write_transition"]], "pantheonrl.common.trajsaver.SimultaneousTransitions": [[51, 2, 1, "", "get_alt_transitions"], [51, 2, 1, "", "get_ego_transitions"], [51, 2, 1, "", "read_transition"], [51, 2, 1, "", "write_transition"]], "pantheonrl.common.trajsaver.TransitionsMinimal": [[52, 5, 1, "", "acts"], [52, 5, 1, "", "obs"], [52, 2, 1, "", "read_transition"], [52, 2, 1, "", "write_transition"]], "pantheonrl.common.trajsaver.TurnBasedTransitions": [[53, 2, 1, "", "get_alt_transitions"], [53, 2, 1, "", "get_ego_transitions"], [53, 2, 1, "", "read_transition"], [53, 2, 1, "", "write_transition"]], "pantheonrl.common.util": [[57, 1, 1, "", "FeedForward32Policy"], [58, 6, 1, "", "SpaceException"], [59, 4, 1, "", "action_from_policy"], [60, 4, 1, "", "calculate_space"], [61, 4, 1, "", "clip_actions"], [62, 4, 1, "", "get_default_obs"], [63, 4, 1, "", "get_space_size"], [64, 4, 1, "", "resample_noise"]], "pantheonrl.common.util.FeedForward32Policy": [[57, 2, 1, "", "__call__"], [57, 2, 1, "", "add_module"], [57, 2, 1, "", "apply"], [57, 2, 1, "", "bfloat16"], [57, 2, 1, "", "buffers"], [57, 2, 1, "", "children"], [57, 2, 1, "", "cpu"], [57, 2, 1, "", "cuda"], [57, 3, 1, "", "device"], [57, 2, 1, "", "double"], [57, 2, 1, "", "eval"], [57, 2, 1, "", "evaluate_actions"], [57, 2, 1, "", "extra_repr"], [57, 2, 1, "", "extract_features"], [57, 2, 1, "", "float"], [57, 2, 1, "", "forward"], [57, 2, 1, "", "get_buffer"], [57, 2, 1, "", "get_distribution"], [57, 2, 1, "", "get_extra_state"], [57, 2, 1, "", "get_parameter"], [57, 2, 1, "", "get_submodule"], [57, 2, 1, "", "half"], [57, 2, 1, "", "init_weights"], [57, 2, 1, "", "ipu"], [57, 2, 1, "", "is_vectorized_observation"], [57, 2, 1, "", "load"], [57, 2, 1, "", "load_from_vector"], [57, 2, 1, "", "load_state_dict"], [57, 2, 1, "", "make_features_extractor"], [57, 2, 1, "", "modules"], [57, 2, 1, "", "named_buffers"], [57, 2, 1, "", "named_children"], [57, 2, 1, "", "named_modules"], [57, 2, 1, "", "named_parameters"], [57, 2, 1, "", "obs_to_tensor"], [57, 2, 1, "", "parameters"], [57, 2, 1, "", "parameters_to_vector"], [57, 2, 1, "", "predict"], [57, 2, 1, "", "predict_values"], [57, 2, 1, "", "register_backward_hook"], [57, 2, 1, "", "register_buffer"], [57, 2, 1, "", "register_forward_hook"], [57, 2, 1, "", "register_forward_pre_hook"], [57, 2, 1, "", "register_full_backward_hook"], [57, 2, 1, "", "register_full_backward_pre_hook"], [57, 2, 1, "", "register_load_state_dict_post_hook"], [57, 2, 1, "", "register_module"], [57, 2, 1, "", "register_parameter"], [57, 2, 1, "", "register_state_dict_pre_hook"], [57, 2, 1, "", "requires_grad_"], [57, 2, 1, "", "reset_noise"], [57, 2, 1, "", "save"], [57, 2, 1, "", "scale_action"], [57, 2, 1, "", "set_extra_state"], [57, 2, 1, "", "set_training_mode"], [57, 2, 1, "", "share_memory"], [57, 3, 1, "", "squash_output"], [57, 2, 1, "", "state_dict"], [57, 2, 1, "", "to"], [57, 2, 1, "", "to_empty"], [57, 2, 1, "", "train"], [57, 2, 1, "", "type"], [57, 2, 1, "", "unscale_action"], [57, 2, 1, "", "xpu"], [57, 2, 1, "", "zero_grad"]], "pantheonrl.common.wrappers": [[66, 1, 1, "", "HistoryQueue"], [67, 1, 1, "", "MultiRecorder"], [68, 1, 1, "", "SimultaneousFrameStack"], [69, 1, 1, "", "SimultaneousRecorder"], [70, 1, 1, "", "TurnBasedFrameStack"], [71, 1, 1, "", "TurnBasedRecorder"], [72, 4, 1, "", "frame_wrap"], [73, 4, 1, "", "recorder_wrap"]], "pantheonrl.common.wrappers.HistoryQueue": [[66, 2, 1, "", "add"], [66, 2, 1, "", "reset"]], "pantheonrl.common.wrappers.MultiRecorder": [[67, 2, 1, "", "get_transitions"], [67, 2, 1, "", "write_transition"]], "pantheonrl.common.wrappers.SimultaneousFrameStack": [[68, 3, 1, "", "action_space"], [68, 2, 1, "", "add_partner_agent"], [68, 2, 1, "", "close"], [68, 2, 1, "", "construct_single_agent_interface"], [68, 2, 1, "", "get_dummy_env"], [68, 2, 1, "", "get_ego_ind"], [68, 2, 1, "", "get_wrapper_attr"], [68, 2, 1, "", "multi_reset"], [68, 2, 1, "", "multi_step"], [68, 2, 1, "", "n_reset"], [68, 2, 1, "", "n_step"], [68, 3, 1, "", "np_random"], [68, 3, 1, "", "observation_space"], [68, 2, 1, "", "render"], [68, 2, 1, "", "resample_null"], [68, 2, 1, "", "resample_random"], [68, 2, 1, "", "resample_round_robin"], [68, 2, 1, "", "reset"], [68, 2, 1, "", "set_ego_extractor"], [68, 2, 1, "", "set_ego_ind"], [68, 2, 1, "", "set_partnerid"], [68, 2, 1, "", "set_resample_policy"], [68, 2, 1, "", "step"], [68, 3, 1, "", "unwrapped"]], "pantheonrl.common.wrappers.SimultaneousRecorder": [[69, 3, 1, "", "action_space"], [69, 2, 1, "", "add_partner_agent"], [69, 2, 1, "", "close"], [69, 2, 1, "", "construct_single_agent_interface"], [69, 2, 1, "", "get_dummy_env"], [69, 2, 1, "", "get_ego_ind"], [69, 2, 1, "", "get_transitions"], [69, 2, 1, "", "get_wrapper_attr"], [69, 2, 1, "", "multi_reset"], [69, 2, 1, "", "multi_step"], [69, 2, 1, "", "n_reset"], [69, 2, 1, "", "n_step"], [69, 3, 1, "", "np_random"], [69, 3, 1, "", "observation_space"], [69, 2, 1, "", "render"], [69, 2, 1, "", "resample_null"], [69, 2, 1, "", "resample_random"], [69, 2, 1, "", "resample_round_robin"], [69, 2, 1, "", "reset"], [69, 2, 1, "", "set_ego_extractor"], [69, 2, 1, "", "set_ego_ind"], [69, 2, 1, "", "set_partnerid"], [69, 2, 1, "", "set_resample_policy"], [69, 2, 1, "", "step"], [69, 3, 1, "", "unwrapped"], [69, 2, 1, "", "write_transition"]], "pantheonrl.common.wrappers.TurnBasedFrameStack": [[70, 3, 1, "", "action_space"], [70, 2, 1, "", "add_partner_agent"], [70, 2, 1, "", "alt_step"], [70, 2, 1, "", "close"], [70, 2, 1, "", "construct_single_agent_interface"], [70, 2, 1, "", "ego_step"], [70, 2, 1, "", "get_dummy_env"], [70, 2, 1, "", "get_ego_ind"], [70, 2, 1, "", "get_wrapper_attr"], [70, 2, 1, "", "multi_reset"], [70, 2, 1, "", "n_reset"], [70, 2, 1, "", "n_step"], [70, 3, 1, "", "np_random"], [70, 3, 1, "", "observation_space"], [70, 2, 1, "", "render"], [70, 2, 1, "", "resample_null"], [70, 2, 1, "", "resample_random"], [70, 2, 1, "", "resample_round_robin"], [70, 2, 1, "", "reset"], [70, 2, 1, "", "set_ego_extractor"], [70, 2, 1, "", "set_ego_ind"], [70, 2, 1, "", "set_partnerid"], [70, 2, 1, "", "set_resample_policy"], [70, 2, 1, "", "step"], [70, 3, 1, "", "unwrapped"]], "pantheonrl.common.wrappers.TurnBasedRecorder": [[71, 3, 1, "", "action_space"], [71, 2, 1, "", "add_partner_agent"], [71, 2, 1, "", "alt_step"], [71, 2, 1, "", "close"], [71, 2, 1, "", "construct_single_agent_interface"], [71, 2, 1, "", "ego_step"], [71, 2, 1, "", "get_dummy_env"], [71, 2, 1, "", "get_ego_ind"], [71, 2, 1, "", "get_transitions"], [71, 2, 1, "", "get_wrapper_attr"], [71, 2, 1, "", "multi_reset"], [71, 2, 1, "", "n_reset"], [71, 2, 1, "", "n_step"], [71, 3, 1, "", "np_random"], [71, 3, 1, "", "observation_space"], [71, 2, 1, "", "render"], [71, 2, 1, "", "resample_null"], [71, 2, 1, "", "resample_random"], [71, 2, 1, "", "resample_round_robin"], [71, 2, 1, "", "reset"], [71, 2, 1, "", "set_ego_extractor"], [71, 2, 1, "", "set_ego_ind"], [71, 2, 1, "", "set_partnerid"], [71, 2, 1, "", "set_resample_policy"], [71, 2, 1, "", "step"], [71, 3, 1, "", "unwrapped"], [71, 2, 1, "", "write_transition"]], "pantheonrl.envs": [[75, 0, 0, "-", "blockworldgym"], [112, 0, 0, "-", "liargym"], [116, 0, 0, "-", "pettingzoo"], [118, 0, 0, "-", "rpsgym"]], "pantheonrl.envs.blockworldgym": [[76, 0, 0, "-", "blockworld"], [79, 0, 0, "-", "gridutils"], [85, 0, 0, "-", "rendering"], [106, 0, 0, "-", "simpleblockworld"]], "pantheonrl.envs.blockworldgym.blockworld": [[77, 1, 1, "", "BlockEnv"], [78, 1, 1, "", "DefaultConstructorAgent"]], "pantheonrl.envs.blockworldgym.blockworld.BlockEnv": [[77, 3, 1, "", "action_space"], [77, 2, 1, "", "add_partner_agent"], [77, 2, 1, "", "alt_step"], [77, 2, 1, "", "close"], [77, 2, 1, "", "construct_single_agent_interface"], [77, 2, 1, "", "ego_step"], [77, 2, 1, "", "get_dummy_env"], [77, 2, 1, "", "get_ego_ind"], [77, 2, 1, "", "get_wrapper_attr"], [77, 2, 1, "", "multi_reset"], [77, 2, 1, "", "n_reset"], [77, 2, 1, "", "n_step"], [77, 3, 1, "", "np_random"], [77, 3, 1, "", "observation_space"], [77, 2, 1, "", "render"], [77, 2, 1, "", "resample_null"], [77, 2, 1, "", "resample_random"], [77, 2, 1, "", "resample_round_robin"], [77, 2, 1, "", "reset"], [77, 2, 1, "", "set_ego_extractor"], [77, 2, 1, "", "set_ego_ind"], [77, 2, 1, "", "set_partnerid"], [77, 2, 1, "", "set_resample_policy"], [77, 2, 1, "", "step"], [77, 3, 1, "", "unwrapped"]], "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent": [[78, 2, 1, "", "get_action"], [78, 2, 1, "", "update"]], "pantheonrl.envs.blockworldgym.gridutils": [[80, 4, 1, "", "drop_random"], [81, 4, 1, "", "generate_random_world"], [82, 4, 1, "", "gravity"], [83, 4, 1, "", "matches"], [84, 4, 1, "", "place"]], "pantheonrl.envs.blockworldgym.rendering": [[86, 1, 1, "", "Attr"], [87, 1, 1, "", "Color"], [88, 1, 1, "", "Compound"], [89, 1, 1, "", "FilledPolygon"], [90, 1, 1, "", "Geom"], [91, 1, 1, "", "Image"], [92, 1, 1, "", "Line"], [93, 1, 1, "", "LineStyle"], [94, 1, 1, "", "LineWidth"], [95, 1, 1, "", "Point"], [96, 1, 1, "", "PolyLine"], [97, 1, 1, "", "SimpleImageViewer"], [98, 1, 1, "", "Transform"], [99, 1, 1, "", "Viewer"], [100, 4, 1, "", "get_display"], [101, 4, 1, "", "get_window"], [102, 4, 1, "", "make_capsule"], [103, 4, 1, "", "make_circle"], [104, 4, 1, "", "make_polygon"], [105, 4, 1, "", "make_polyline"]], "pantheonrl.envs.blockworldgym.rendering.Attr": [[86, 2, 1, "", "disable"], [86, 2, 1, "", "enable"]], "pantheonrl.envs.blockworldgym.rendering.Color": [[87, 2, 1, "", "disable"], [87, 2, 1, "", "enable"]], "pantheonrl.envs.blockworldgym.rendering.Compound": [[88, 2, 1, "", "add_attr"], [88, 2, 1, "", "render"], [88, 2, 1, "", "render1"], [88, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.FilledPolygon": [[89, 2, 1, "", "add_attr"], [89, 2, 1, "", "render"], [89, 2, 1, "", "render1"], [89, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.Geom": [[90, 2, 1, "", "add_attr"], [90, 2, 1, "", "render"], [90, 2, 1, "", "render1"], [90, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.Image": [[91, 2, 1, "", "add_attr"], [91, 2, 1, "", "render"], [91, 2, 1, "", "render1"], [91, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.Line": [[92, 2, 1, "", "add_attr"], [92, 2, 1, "", "render"], [92, 2, 1, "", "render1"], [92, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.LineStyle": [[93, 2, 1, "", "disable"], [93, 2, 1, "", "enable"]], "pantheonrl.envs.blockworldgym.rendering.LineWidth": [[94, 2, 1, "", "disable"], [94, 2, 1, "", "enable"]], "pantheonrl.envs.blockworldgym.rendering.Point": [[95, 2, 1, "", "add_attr"], [95, 2, 1, "", "render"], [95, 2, 1, "", "render1"], [95, 2, 1, "", "set_color"]], "pantheonrl.envs.blockworldgym.rendering.PolyLine": [[96, 2, 1, "", "add_attr"], [96, 2, 1, "", "render"], [96, 2, 1, "", "render1"], [96, 2, 1, "", "set_color"], [96, 2, 1, "", "set_linewidth"]], "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer": [[97, 2, 1, "", "close"], [97, 2, 1, "", "imshow"]], "pantheonrl.envs.blockworldgym.rendering.Transform": [[98, 2, 1, "", "disable"], [98, 2, 1, "", "enable"], [98, 2, 1, "", "set_rotation"], [98, 2, 1, "", "set_scale"], [98, 2, 1, "", "set_translation"]], "pantheonrl.envs.blockworldgym.rendering.Viewer": [[99, 2, 1, "", "add_geom"], [99, 2, 1, "", "add_onetime"], [99, 2, 1, "", "close"], [99, 2, 1, "", "draw_circle"], [99, 2, 1, "", "draw_line"], [99, 2, 1, "", "draw_polygon"], [99, 2, 1, "", "draw_polyline"], [99, 2, 1, "", "get_array"], [99, 2, 1, "", "render"], [99, 2, 1, "", "set_bounds"], [99, 2, 1, "", "window_closed_by_user"]], "pantheonrl.envs.blockworldgym.simpleblockworld": [[107, 1, 1, "", "SBWDefaultAgent"], [108, 1, 1, "", "SBWEasyPartner"], [109, 1, 1, "", "SimpleBlockEnv"], [110, 4, 1, "", "generate_grid_world"], [111, 4, 1, "", "random_block"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent": [[107, 2, 1, "", "get_action"], [107, 2, 1, "", "update"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner": [[108, 2, 1, "", "get_action"], [108, 2, 1, "", "update"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv": [[109, 3, 1, "", "action_space"], [109, 2, 1, "", "add_partner_agent"], [109, 2, 1, "", "alt_step"], [109, 2, 1, "", "close"], [109, 2, 1, "", "construct_single_agent_interface"], [109, 2, 1, "", "ego_step"], [109, 2, 1, "", "get_dummy_env"], [109, 2, 1, "", "get_ego_ind"], [109, 2, 1, "", "get_wrapper_attr"], [109, 2, 1, "", "multi_reset"], [109, 2, 1, "", "n_reset"], [109, 2, 1, "", "n_step"], [109, 3, 1, "", "np_random"], [109, 3, 1, "", "observation_space"], [109, 2, 1, "", "render"], [109, 2, 1, "", "resample_null"], [109, 2, 1, "", "resample_random"], [109, 2, 1, "", "resample_round_robin"], [109, 2, 1, "", "reset"], [109, 2, 1, "", "set_ego_extractor"], [109, 2, 1, "", "set_ego_ind"], [109, 2, 1, "", "set_partnerid"], [109, 2, 1, "", "set_resample_policy"], [109, 2, 1, "", "step"], [109, 3, 1, "", "unwrapped"]], "pantheonrl.envs.liargym": [[113, 0, 0, "-", "liar"]], "pantheonrl.envs.liargym.liar": [[114, 1, 1, "", "LiarDefaultAgent"], [115, 1, 1, "", "LiarEnv"]], "pantheonrl.envs.liargym.liar.LiarDefaultAgent": [[114, 2, 1, "", "get_action"], [114, 2, 1, "", "update"]], "pantheonrl.envs.liargym.liar.LiarEnv": [[115, 3, 1, "", "action_space"], [115, 2, 1, "", "add_partner_agent"], [115, 2, 1, "", "alt_step"], [115, 2, 1, "", "close"], [115, 2, 1, "", "construct_single_agent_interface"], [115, 2, 1, "", "ego_step"], [115, 2, 1, "", "get_dummy_env"], [115, 2, 1, "", "get_ego_ind"], [115, 2, 1, "", "get_wrapper_attr"], [115, 2, 1, "", "multi_reset"], [115, 2, 1, "", "n_reset"], [115, 2, 1, "", "n_step"], [115, 3, 1, "", "np_random"], [115, 3, 1, "", "observation_space"], [115, 2, 1, "", "render"], [115, 2, 1, "", "resample_null"], [115, 2, 1, "", "resample_random"], [115, 2, 1, "", "resample_round_robin"], [115, 2, 1, "", "reset"], [115, 2, 1, "", "set_ego_extractor"], [115, 2, 1, "", "set_ego_ind"], [115, 2, 1, "", "set_partnerid"], [115, 2, 1, "", "set_resample_policy"], [115, 2, 1, "", "step"], [115, 3, 1, "", "unwrapped"]], "pantheonrl.envs.pettingzoo": [[117, 1, 1, "", "PettingZooAECWrapper"]], "pantheonrl.envs.pettingzoo.PettingZooAECWrapper": [[117, 3, 1, "", "action_space"], [117, 2, 1, "", "add_partner_agent"], [117, 2, 1, "", "close"], [117, 2, 1, "", "construct_single_agent_interface"], [117, 2, 1, "", "get_dummy_env"], [117, 2, 1, "", "get_ego_ind"], [117, 2, 1, "", "get_wrapper_attr"], [117, 2, 1, "", "n_reset"], [117, 2, 1, "", "n_step"], [117, 3, 1, "", "np_random"], [117, 3, 1, "", "observation_space"], [117, 2, 1, "", "render"], [117, 2, 1, "", "resample_null"], [117, 2, 1, "", "resample_random"], [117, 2, 1, "", "resample_round_robin"], [117, 2, 1, "", "reset"], [117, 2, 1, "", "set_ego_extractor"], [117, 2, 1, "", "set_ego_ind"], [117, 2, 1, "", "set_partnerid"], [117, 2, 1, "", "set_resample_policy"], [117, 2, 1, "", "step"], [117, 3, 1, "", "unwrapped"]], "pantheonrl.envs.rpsgym": [[119, 0, 0, "-", "rps"]], "pantheonrl.envs.rpsgym.rps": [[120, 1, 1, "", "RPSEnv"], [121, 1, 1, "", "RPSWeightedAgent"]], "pantheonrl.envs.rpsgym.rps.RPSEnv": [[120, 3, 1, "", "action_space"], [120, 2, 1, "", "add_partner_agent"], [120, 2, 1, "", "close"], [120, 2, 1, "", "construct_single_agent_interface"], [120, 2, 1, "", "get_dummy_env"], [120, 2, 1, "", "get_ego_ind"], [120, 2, 1, "", "get_wrapper_attr"], [120, 2, 1, "", "multi_reset"], [120, 2, 1, "", "multi_step"], [120, 2, 1, "", "n_reset"], [120, 2, 1, "", "n_step"], [120, 3, 1, "", "np_random"], [120, 3, 1, "", "observation_space"], [120, 2, 1, "", "render"], [120, 2, 1, "", "resample_null"], [120, 2, 1, "", "resample_random"], [120, 2, 1, "", "resample_round_robin"], [120, 2, 1, "", "reset"], [120, 2, 1, "", "set_ego_extractor"], [120, 2, 1, "", "set_ego_ind"], [120, 2, 1, "", "set_partnerid"], [120, 2, 1, "", "set_resample_policy"], [120, 2, 1, "", "step"], [120, 3, 1, "", "unwrapped"]], "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent": [[121, 2, 1, "", "get_action"], [121, 2, 1, "", "update"]]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method", "3": "py:property", "4": "py:function", "5": "py:attribute", "6": "py:exception"}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"], "3": ["py", "property", "Python property"], "4": ["py", "function", "Python function"], "5": ["py", "attribute", "Python attribute"], "6": ["py", "exception", "Python exception"]}, "titleterms": {"pantheonrl": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 124], "algo": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29], "adap": [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18], "adap_learn": [3, 4], "agent": [5, 6, 31, 32, 33, 34, 35, 36, 37], "adapag": 6, "polici": [7, 8, 9, 10, 28, 29], "adappolici": 8, "adappolicymult": 9, "multmodel": 10, "util": [11, 12, 13, 14, 15, 16, 17, 18, 56, 57, 58, 59, 60, 61, 62, 63, 64], "get_l2_spher": 12, "get_categor": 13, "get_context_kl_loss": 14, "get_natural_numb": 15, "get_positive_squar": 16, "get_unit_squar": 17, "kl_diverg": 18, "bc": [19, 20, 21, 22, 23, 24], "bcshell": 21, "constantlrschedul": 22, "epochorbatchiteratorwithprogress": 23, "reconstruct_polici": 24, "modular": [25, 26, 27, 28, 29], "learn": [26, 27], "modularalgorithm": 27, "modularpolici": 29, "common": [30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73], "dummyag": 33, "offpolicyag": 34, "onpolicyag": 35, "recordingagentwrapp": 36, "staticpolicyag": 37, "multiagentenv": [38, 39, 40, 41, 42, 43, 44], "dummyenv": 39, "killenvexcept": 40, "playerexcept": 42, "simultaneousenv": 43, "turnbasedenv": 44, "observ": [45, 46, 47, 48], "extract_ob": 47, "extract_partial_ob": 48, "trajsav": [49, 50, 51, 52, 53, 54, 55], "multitransit": 50, "simultaneoustransit": 51, "transitionsminim": 52, "turnbasedtransit": 53, "dataclass_quick_asdict": 54, "transitions_collate_fn": 55, "feedforward32polici": 57, "spaceexcept": 58, "action_from_polici": 59, "calculate_spac": 60, "clip_act": 61, "get_default_ob": 62, "get_space_s": 63, "resample_nois": 64, "wrapper": [65, 66, 67, 68, 69, 70, 71, 72, 73], "historyqueu": 66, "multirecord": 67, "simultaneousframestack": 68, "simultaneousrecord": 69, "turnbasedframestack": 70, "turnbasedrecord": 71, "frame_wrap": 72, "recorder_wrap": 73, "env": [74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121], "blockworldgym": [75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111], "blockworld": [76, 77, 78], "blockenv": 77, "defaultconstructorag": 78, "gridutil": [79, 80, 81, 82, 83, 84], "drop_random": 80, "generate_random_world": 81, "graviti": 82, "match": 83, "place": 84, "render": [85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105], "attr": 86, "color": 87, "compound": 88, "filledpolygon": 89, "geom": 90, "imag": 91, "line": 92, "linestyl": 93, "linewidth": 94, "point": 95, "polylin": 96, "simpleimageview": 97, "transform": 98, "viewer": 99, "get_displai": 100, "get_window": 101, "make_capsul": 102, "make_circl": 103, "make_polygon": 104, "make_polylin": 105, "simpleblockworld": [106, 107, 108, 109, 110, 111], "sbwdefaultag": 107, "sbweasypartn": 108, "simpleblockenv": 109, "generate_grid_world": 110, "random_block": 111, "liargym": [112, 113, 114, 115], "liar": [113, 114, 115], "liardefaultag": 114, "liarenv": 115, "pettingzoo": [116, 117, 123], "pettingzooaecwrapp": 117, "rpsgym": [118, 119, 120, 121], "rp": [119, 120, 121], "rpsenv": 120, "rpsweightedag": 121, "instal": 123, "prerequisit": 123, "develop": 123, "version": 123, "overcook": 123, "doc": 124, "citat": 124, "user": 124, "guid": 124, "api": 124, "refer": 124}, "envversion": {"sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.intersphinx": 1, "sphinx.ext.viewcode": 1, "sphinx": 60}, "alltitles": {"pantheonrl": [[0, "pantheonrl"]], "pantheonrl.algos": [[1, "pantheonrl-algos"]], "pantheonrl.algos.adap": [[2, "pantheonrl-algos-adap"]], "pantheonrl.algos.adap.adap_learn": [[3, "module-pantheonrl.algos.adap.adap_learn"]], "pantheonrl.algos.adap.adap_learn.ADAP": [[4, "pantheonrl-algos-adap-adap-learn-adap"]], "pantheonrl.algos.adap.agent": [[5, "module-pantheonrl.algos.adap.agent"]], "pantheonrl.algos.adap.agent.AdapAgent": [[6, "pantheonrl-algos-adap-agent-adapagent"]], "pantheonrl.algos.adap.policies": [[7, "module-pantheonrl.algos.adap.policies"]], "pantheonrl.algos.adap.policies.AdapPolicy": [[8, "pantheonrl-algos-adap-policies-adappolicy"]], "pantheonrl.algos.adap.policies.AdapPolicyMult": [[9, "pantheonrl-algos-adap-policies-adappolicymult"]], "pantheonrl.algos.adap.policies.MultModel": [[10, "pantheonrl-algos-adap-policies-multmodel"]], "pantheonrl.algos.adap.util": [[11, "module-pantheonrl.algos.adap.util"]], "pantheonrl.algos.adap.util.get_l2_sphere": [[12, "pantheonrl-algos-adap-util-get-l2-sphere"]], "pantheonrl.algos.adap.util.get_categorical": [[13, "pantheonrl-algos-adap-util-get-categorical"]], "pantheonrl.algos.adap.util.get_context_kl_loss": [[14, "pantheonrl-algos-adap-util-get-context-kl-loss"]], "pantheonrl.algos.adap.util.get_natural_number": [[15, "pantheonrl-algos-adap-util-get-natural-number"]], "pantheonrl.algos.adap.util.get_positive_square": [[16, "pantheonrl-algos-adap-util-get-positive-square"]], "pantheonrl.algos.adap.util.get_unit_square": [[17, "pantheonrl-algos-adap-util-get-unit-square"]], "pantheonrl.algos.adap.util.kl_divergence": [[18, "pantheonrl-algos-adap-util-kl-divergence"]], "pantheonrl.algos.bc": [[19, "module-pantheonrl.algos.bc"]], "pantheonrl.algos.bc.BC": [[20, "pantheonrl-algos-bc-bc"]], "pantheonrl.algos.bc.BCShell": [[21, "pantheonrl-algos-bc-bcshell"]], "pantheonrl.algos.bc.ConstantLRSchedule": [[22, "pantheonrl-algos-bc-constantlrschedule"]], "pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress": [[23, "pantheonrl-algos-bc-epochorbatchiteratorwithprogress"]], "pantheonrl.algos.bc.reconstruct_policy": [[24, "pantheonrl-algos-bc-reconstruct-policy"]], "pantheonrl.algos.modular": [[25, "pantheonrl-algos-modular"]], "pantheonrl.algos.modular.learn": [[26, "module-pantheonrl.algos.modular.learn"]], "pantheonrl.algos.modular.learn.ModularAlgorithm": [[27, "pantheonrl-algos-modular-learn-modularalgorithm"]], "pantheonrl.algos.modular.policies": [[28, "module-pantheonrl.algos.modular.policies"]], "pantheonrl.algos.modular.policies.ModularPolicy": [[29, "pantheonrl-algos-modular-policies-modularpolicy"]], "pantheonrl.common": [[30, "pantheonrl-common"]], "pantheonrl.common.agents": [[31, "module-pantheonrl.common.agents"]], "pantheonrl.common.agents.Agent": [[32, "pantheonrl-common-agents-agent"]], "pantheonrl.common.agents.DummyAgent": [[33, "pantheonrl-common-agents-dummyagent"]], "pantheonrl.common.agents.OffPolicyAgent": [[34, "pantheonrl-common-agents-offpolicyagent"]], "pantheonrl.common.agents.OnPolicyAgent": [[35, "pantheonrl-common-agents-onpolicyagent"]], "pantheonrl.common.agents.RecordingAgentWrapper": [[36, "pantheonrl-common-agents-recordingagentwrapper"]], "pantheonrl.common.agents.StaticPolicyAgent": [[37, "pantheonrl-common-agents-staticpolicyagent"]], "pantheonrl.common.multiagentenv": [[38, "module-pantheonrl.common.multiagentenv"]], "pantheonrl.common.multiagentenv.DummyEnv": [[39, "pantheonrl-common-multiagentenv-dummyenv"]], "pantheonrl.common.multiagentenv.KillEnvException": [[40, "pantheonrl-common-multiagentenv-killenvexception"]], "pantheonrl.common.multiagentenv.MultiAgentEnv": [[41, "pantheonrl-common-multiagentenv-multiagentenv"]], "pantheonrl.common.multiagentenv.PlayerException": [[42, "pantheonrl-common-multiagentenv-playerexception"]], "pantheonrl.common.multiagentenv.SimultaneousEnv": [[43, "pantheonrl-common-multiagentenv-simultaneousenv"]], "pantheonrl.common.multiagentenv.TurnBasedEnv": [[44, "pantheonrl-common-multiagentenv-turnbasedenv"]], "pantheonrl.common.observation": [[45, "module-pantheonrl.common.observation"]], "pantheonrl.common.observation.Observation": [[46, "pantheonrl-common-observation-observation"]], "pantheonrl.common.observation.extract_obs": [[47, "pantheonrl-common-observation-extract-obs"]], "pantheonrl.common.observation.extract_partial_obs": [[48, "pantheonrl-common-observation-extract-partial-obs"]], "pantheonrl.common.trajsaver": [[49, "module-pantheonrl.common.trajsaver"]], "pantheonrl.common.trajsaver.MultiTransitions": [[50, "pantheonrl-common-trajsaver-multitransitions"]], "pantheonrl.common.trajsaver.SimultaneousTransitions": [[51, "pantheonrl-common-trajsaver-simultaneoustransitions"]], "pantheonrl.common.trajsaver.TransitionsMinimal": [[52, "pantheonrl-common-trajsaver-transitionsminimal"]], "pantheonrl.common.trajsaver.TurnBasedTransitions": [[53, "pantheonrl-common-trajsaver-turnbasedtransitions"]], "pantheonrl.common.trajsaver.dataclass_quick_asdict": [[54, "pantheonrl-common-trajsaver-dataclass-quick-asdict"]], "pantheonrl.common.trajsaver.transitions_collate_fn": [[55, "pantheonrl-common-trajsaver-transitions-collate-fn"]], "pantheonrl.common.util": [[56, "module-pantheonrl.common.util"]], "pantheonrl.common.util.FeedForward32Policy": [[57, "pantheonrl-common-util-feedforward32policy"]], "pantheonrl.common.util.SpaceException": [[58, "pantheonrl-common-util-spaceexception"]], "pantheonrl.common.util.action_from_policy": [[59, "pantheonrl-common-util-action-from-policy"]], "pantheonrl.common.util.calculate_space": [[60, "pantheonrl-common-util-calculate-space"]], "pantheonrl.common.util.clip_actions": [[61, "pantheonrl-common-util-clip-actions"]], "pantheonrl.common.util.get_default_obs": [[62, "pantheonrl-common-util-get-default-obs"]], "pantheonrl.common.util.get_space_size": [[63, "pantheonrl-common-util-get-space-size"]], "pantheonrl.common.util.resample_noise": [[64, "pantheonrl-common-util-resample-noise"]], "pantheonrl.common.wrappers": [[65, "module-pantheonrl.common.wrappers"]], "pantheonrl.common.wrappers.HistoryQueue": [[66, "pantheonrl-common-wrappers-historyqueue"]], "pantheonrl.common.wrappers.MultiRecorder": [[67, "pantheonrl-common-wrappers-multirecorder"]], "pantheonrl.common.wrappers.SimultaneousFrameStack": [[68, "pantheonrl-common-wrappers-simultaneousframestack"]], "pantheonrl.common.wrappers.SimultaneousRecorder": [[69, "pantheonrl-common-wrappers-simultaneousrecorder"]], "pantheonrl.common.wrappers.TurnBasedFrameStack": [[70, "pantheonrl-common-wrappers-turnbasedframestack"]], "pantheonrl.common.wrappers.TurnBasedRecorder": [[71, "pantheonrl-common-wrappers-turnbasedrecorder"]], "pantheonrl.common.wrappers.frame_wrap": [[72, "pantheonrl-common-wrappers-frame-wrap"]], "pantheonrl.common.wrappers.recorder_wrap": [[73, "pantheonrl-common-wrappers-recorder-wrap"]], "pantheonrl.envs": [[74, "pantheonrl-envs"]], "pantheonrl.envs.blockworldgym": [[75, "pantheonrl-envs-blockworldgym"]], "pantheonrl.envs.blockworldgym.blockworld": [[76, "module-pantheonrl.envs.blockworldgym.blockworld"]], "pantheonrl.envs.blockworldgym.blockworld.BlockEnv": [[77, "pantheonrl-envs-blockworldgym-blockworld-blockenv"]], "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent": [[78, "pantheonrl-envs-blockworldgym-blockworld-defaultconstructoragent"]], "pantheonrl.envs.blockworldgym.gridutils": [[79, "module-pantheonrl.envs.blockworldgym.gridutils"]], "pantheonrl.envs.blockworldgym.gridutils.drop_random": [[80, "pantheonrl-envs-blockworldgym-gridutils-drop-random"]], "pantheonrl.envs.blockworldgym.gridutils.generate_random_world": [[81, "pantheonrl-envs-blockworldgym-gridutils-generate-random-world"]], "pantheonrl.envs.blockworldgym.gridutils.gravity": [[82, "pantheonrl-envs-blockworldgym-gridutils-gravity"]], "pantheonrl.envs.blockworldgym.gridutils.matches": [[83, "pantheonrl-envs-blockworldgym-gridutils-matches"]], "pantheonrl.envs.blockworldgym.gridutils.place": [[84, "pantheonrl-envs-blockworldgym-gridutils-place"]], "pantheonrl.envs.blockworldgym.rendering": [[85, "module-pantheonrl.envs.blockworldgym.rendering"]], "pantheonrl.envs.blockworldgym.rendering.Attr": [[86, "pantheonrl-envs-blockworldgym-rendering-attr"]], "pantheonrl.envs.blockworldgym.rendering.Color": [[87, "pantheonrl-envs-blockworldgym-rendering-color"]], "pantheonrl.envs.blockworldgym.rendering.Compound": [[88, "pantheonrl-envs-blockworldgym-rendering-compound"]], "pantheonrl.envs.blockworldgym.rendering.FilledPolygon": [[89, "pantheonrl-envs-blockworldgym-rendering-filledpolygon"]], "pantheonrl.envs.blockworldgym.rendering.Geom": [[90, "pantheonrl-envs-blockworldgym-rendering-geom"]], "pantheonrl.envs.blockworldgym.rendering.Image": [[91, "pantheonrl-envs-blockworldgym-rendering-image"]], "pantheonrl.envs.blockworldgym.rendering.Line": [[92, "pantheonrl-envs-blockworldgym-rendering-line"]], "pantheonrl.envs.blockworldgym.rendering.LineStyle": [[93, "pantheonrl-envs-blockworldgym-rendering-linestyle"]], "pantheonrl.envs.blockworldgym.rendering.LineWidth": [[94, "pantheonrl-envs-blockworldgym-rendering-linewidth"]], "pantheonrl.envs.blockworldgym.rendering.Point": [[95, "pantheonrl-envs-blockworldgym-rendering-point"]], "pantheonrl.envs.blockworldgym.rendering.PolyLine": [[96, "pantheonrl-envs-blockworldgym-rendering-polyline"]], "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer": [[97, "pantheonrl-envs-blockworldgym-rendering-simpleimageviewer"]], "pantheonrl.envs.blockworldgym.rendering.Transform": [[98, "pantheonrl-envs-blockworldgym-rendering-transform"]], "pantheonrl.envs.blockworldgym.rendering.Viewer": [[99, "pantheonrl-envs-blockworldgym-rendering-viewer"]], "pantheonrl.envs.blockworldgym.rendering.get_display": [[100, "pantheonrl-envs-blockworldgym-rendering-get-display"]], "pantheonrl.envs.blockworldgym.rendering.get_window": [[101, "pantheonrl-envs-blockworldgym-rendering-get-window"]], "pantheonrl.envs.blockworldgym.rendering.make_capsule": [[102, "pantheonrl-envs-blockworldgym-rendering-make-capsule"]], "pantheonrl.envs.blockworldgym.rendering.make_circle": [[103, "pantheonrl-envs-blockworldgym-rendering-make-circle"]], "pantheonrl.envs.blockworldgym.rendering.make_polygon": [[104, "pantheonrl-envs-blockworldgym-rendering-make-polygon"]], "pantheonrl.envs.blockworldgym.rendering.make_polyline": [[105, "pantheonrl-envs-blockworldgym-rendering-make-polyline"]], "pantheonrl.envs.blockworldgym.simpleblockworld": [[106, "module-pantheonrl.envs.blockworldgym.simpleblockworld"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent": [[107, "pantheonrl-envs-blockworldgym-simpleblockworld-sbwdefaultagent"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner": [[108, "pantheonrl-envs-blockworldgym-simpleblockworld-sbweasypartner"]], "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv": [[109, "pantheonrl-envs-blockworldgym-simpleblockworld-simpleblockenv"]], "pantheonrl.envs.blockworldgym.simpleblockworld.generate_grid_world": [[110, "pantheonrl-envs-blockworldgym-simpleblockworld-generate-grid-world"]], "pantheonrl.envs.blockworldgym.simpleblockworld.random_block": [[111, "pantheonrl-envs-blockworldgym-simpleblockworld-random-block"]], "pantheonrl.envs.liargym": [[112, "pantheonrl-envs-liargym"]], "pantheonrl.envs.liargym.liar": [[113, "module-pantheonrl.envs.liargym.liar"]], "pantheonrl.envs.liargym.liar.LiarDefaultAgent": [[114, "pantheonrl-envs-liargym-liar-liardefaultagent"]], "pantheonrl.envs.liargym.liar.LiarEnv": [[115, "pantheonrl-envs-liargym-liar-liarenv"]], "pantheonrl.envs.pettingzoo": [[116, "module-pantheonrl.envs.pettingzoo"]], "pantheonrl.envs.pettingzoo.PettingZooAECWrapper": [[117, "pantheonrl-envs-pettingzoo-pettingzooaecwrapper"]], "pantheonrl.envs.rpsgym": [[118, "pantheonrl-envs-rpsgym"]], "pantheonrl.envs.rpsgym.rps": [[119, "module-pantheonrl.envs.rpsgym.rps"]], "pantheonrl.envs.rpsgym.rps.RPSEnv": [[120, "pantheonrl-envs-rpsgym-rps-rpsenv"]], "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent": [[121, "pantheonrl-envs-rpsgym-rps-rpsweightedagent"]], "Installation": [[123, "installation"]], "Prerequisites": [[123, "prerequisites"]], "Development version": [[123, "development-version"]], "Overcooked Installation": [[123, "overcooked-installation"]], "PettingZoo Installation": [[123, "pettingzoo-installation"]], "PantheonRL Docs": [[124, "pantheonrl-docs"]], "Citation": [[124, "citation"]], "User Guide": [[124, null]], "API reference": [[124, null]]}, "indexentries": {"module": [[0, "module-pantheonrl"], [1, "module-pantheonrl.algos"], [2, "module-pantheonrl.algos.adap"], [3, "module-pantheonrl.algos.adap.adap_learn"], [5, "module-pantheonrl.algos.adap.agent"], [7, "module-pantheonrl.algos.adap.policies"], [11, "module-pantheonrl.algos.adap.util"], [19, "module-pantheonrl.algos.bc"], [25, "module-pantheonrl.algos.modular"], [26, "module-pantheonrl.algos.modular.learn"], [28, "module-pantheonrl.algos.modular.policies"], [30, "module-pantheonrl.common"], [31, "module-pantheonrl.common.agents"], [38, "module-pantheonrl.common.multiagentenv"], [45, "module-pantheonrl.common.observation"], [49, "module-pantheonrl.common.trajsaver"], [56, "module-pantheonrl.common.util"], [65, "module-pantheonrl.common.wrappers"], [74, "module-pantheonrl.envs"], [75, "module-pantheonrl.envs.blockworldgym"], [76, "module-pantheonrl.envs.blockworldgym.blockworld"], [79, "module-pantheonrl.envs.blockworldgym.gridutils"], [85, "module-pantheonrl.envs.blockworldgym.rendering"], [106, "module-pantheonrl.envs.blockworldgym.simpleblockworld"], [112, "module-pantheonrl.envs.liargym"], [113, "module-pantheonrl.envs.liargym.liar"], [116, "module-pantheonrl.envs.pettingzoo"], [118, "module-pantheonrl.envs.rpsgym"], [119, "module-pantheonrl.envs.rpsgym.rps"]], "pantheonrl": [[0, "module-pantheonrl"]], "pantheonrl.algos": [[1, "module-pantheonrl.algos"]], "pantheonrl.algos.adap": [[2, "module-pantheonrl.algos.adap"]], "pantheonrl.algos.adap.adap_learn": [[3, "module-pantheonrl.algos.adap.adap_learn"]], "adap (class in pantheonrl.algos.adap.adap_learn)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP"]], "collect_rollouts() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.collect_rollouts"]], "get_env() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.get_env"]], "get_parameters() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.get_parameters"]], "get_vec_normalize_env() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.get_vec_normalize_env"]], "learn() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.learn"]], "load() (adap class method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.load"]], "logger (adap property)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.logger"]], "predict() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.predict"]], "save() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.save"]], "set_env() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.set_env"]], "set_logger() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.set_logger"]], "set_parameters() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.set_parameters"]], "set_random_seed() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.set_random_seed"]], "train() (adap method)": [[4, "pantheonrl.algos.adap.adap_learn.ADAP.train"]], "pantheonrl.algos.adap.agent": [[5, "module-pantheonrl.algos.adap.agent"]], "adapagent (class in pantheonrl.algos.adap.agent)": [[6, "pantheonrl.algos.adap.agent.AdapAgent"]], "get_action() (adapagent method)": [[6, "pantheonrl.algos.adap.agent.AdapAgent.get_action"]], "learn() (adapagent method)": [[6, "pantheonrl.algos.adap.agent.AdapAgent.learn"]], "update() (adapagent method)": [[6, "pantheonrl.algos.adap.agent.AdapAgent.update"]], "pantheonrl.algos.adap.policies": [[7, "module-pantheonrl.algos.adap.policies"]], "adappolicy (class in pantheonrl.algos.adap.policies)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy"]], "__call__() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.__call__"]], "add_module() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.add_module"]], "apply() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.apply"]], "bfloat16() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.bfloat16"]], "buffers() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.buffers"]], "children() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.children"]], "cpu() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.cpu"]], "cuda() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.cuda"]], "device (adappolicy property)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.device"]], "double() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.double"]], "eval() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.eval"]], "evaluate_actions() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.evaluate_actions"]], "extra_repr() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.extra_repr"]], "extract_features() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.extract_features"]], "float() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.float"]], "forward() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.forward"]], "get_buffer() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.get_buffer"]], "get_context() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.get_context"]], "get_distribution() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.get_distribution"]], "get_extra_state() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.get_extra_state"]], "get_parameter() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.get_parameter"]], "get_submodule() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.get_submodule"]], "half() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.half"]], "init_weights() (adappolicy static method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.init_weights"]], "ipu() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.ipu"]], "is_vectorized_observation() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.is_vectorized_observation"]], "load() (adappolicy class method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.load"]], "load_from_vector() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.load_from_vector"]], "load_state_dict() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.load_state_dict"]], "make_features_extractor() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.make_features_extractor"]], "modules() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.modules"]], "named_buffers() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.named_buffers"]], "named_children() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.named_children"]], "named_modules() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.named_modules"]], "named_parameters() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.named_parameters"]], "obs_to_tensor() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.obs_to_tensor"]], "parameters() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.parameters"]], "parameters_to_vector() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.parameters_to_vector"]], "predict() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.predict"]], "predict_values() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.predict_values"]], "register_backward_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_backward_hook"]], "register_buffer() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_buffer"]], "register_forward_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_forward_hook"]], "register_forward_pre_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_forward_pre_hook"]], "register_full_backward_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_full_backward_hook"]], "register_full_backward_pre_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_full_backward_pre_hook"]], "register_load_state_dict_post_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_load_state_dict_post_hook"]], "register_module() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_module"]], "register_parameter() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_parameter"]], "register_state_dict_pre_hook() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.register_state_dict_pre_hook"]], "requires_grad_() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.requires_grad_"]], "reset_noise() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.reset_noise"]], "save() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.save"]], "scale_action() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.scale_action"]], "set_context() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.set_context"]], "set_extra_state() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.set_extra_state"]], "set_training_mode() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.set_training_mode"]], "share_memory() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.share_memory"]], "squash_output (adappolicy property)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.squash_output"]], "state_dict() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.state_dict"]], "to() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.to"]], "to_empty() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.to_empty"]], "train() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.train"]], "type() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.type"]], "unscale_action() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.unscale_action"]], "xpu() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.xpu"]], "zero_grad() (adappolicy method)": [[8, "pantheonrl.algos.adap.policies.AdapPolicy.zero_grad"]], "adappolicymult (class in pantheonrl.algos.adap.policies)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult"]], "__call__() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.__call__"]], "add_module() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.add_module"]], "apply() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.apply"]], "bfloat16() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.bfloat16"]], "buffers() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.buffers"]], "children() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.children"]], "cpu() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.cpu"]], "cuda() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.cuda"]], "device (adappolicymult property)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.device"]], "double() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.double"]], "eval() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.eval"]], "evaluate_actions() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.evaluate_actions"]], "extra_repr() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.extra_repr"]], "extract_features() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.extract_features"]], "float() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.float"]], "forward() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.forward"]], "get_buffer() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.get_buffer"]], "get_context() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.get_context"]], "get_distribution() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.get_distribution"]], "get_extra_state() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.get_extra_state"]], "get_parameter() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.get_parameter"]], "get_submodule() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.get_submodule"]], "half() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.half"]], "init_weights() (adappolicymult static method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.init_weights"]], "ipu() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.ipu"]], "is_vectorized_observation() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.is_vectorized_observation"]], "load() (adappolicymult class method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.load"]], "load_from_vector() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.load_from_vector"]], "load_state_dict() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.load_state_dict"]], "make_features_extractor() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.make_features_extractor"]], "modules() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.modules"]], "named_buffers() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.named_buffers"]], "named_children() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.named_children"]], "named_modules() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.named_modules"]], "named_parameters() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.named_parameters"]], "obs_to_tensor() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.obs_to_tensor"]], "parameters() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.parameters"]], "parameters_to_vector() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.parameters_to_vector"]], "predict() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.predict"]], "predict_values() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.predict_values"]], "register_backward_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_backward_hook"]], "register_buffer() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_buffer"]], "register_forward_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_forward_hook"]], "register_forward_pre_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_forward_pre_hook"]], "register_full_backward_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_full_backward_hook"]], "register_full_backward_pre_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_full_backward_pre_hook"]], "register_load_state_dict_post_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_load_state_dict_post_hook"]], "register_module() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_module"]], "register_parameter() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_parameter"]], "register_state_dict_pre_hook() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.register_state_dict_pre_hook"]], "requires_grad_() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.requires_grad_"]], "reset_noise() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.reset_noise"]], "save() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.save"]], "scale_action() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.scale_action"]], "set_context() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.set_context"]], "set_extra_state() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.set_extra_state"]], "set_training_mode() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.set_training_mode"]], "share_memory() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.share_memory"]], "squash_output (adappolicymult property)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.squash_output"]], "state_dict() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.state_dict"]], "to() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.to"]], "to_empty() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.to_empty"]], "train() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.train"]], "type() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.type"]], "unscale_action() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.unscale_action"]], "xpu() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.xpu"]], "zero_grad() (adappolicymult method)": [[9, "pantheonrl.algos.adap.policies.AdapPolicyMult.zero_grad"]], "multmodel (class in pantheonrl.algos.adap.policies)": [[10, "pantheonrl.algos.adap.policies.MultModel"]], "__call__() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.__call__"]], "add_module() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.add_module"]], "apply() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.apply"]], "bfloat16() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.bfloat16"]], "buffers() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.buffers"]], "children() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.children"]], "cpu() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.cpu"]], "cuda() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.cuda"]], "double() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.double"]], "eval() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.eval"]], "extra_repr() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.extra_repr"]], "float() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.float"]], "forward() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.forward"]], "forward_actor() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.forward_actor"]], "forward_critic() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.forward_critic"]], "get_buffer() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.get_buffer"]], "get_extra_state() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.get_extra_state"]], "get_parameter() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.get_parameter"]], "get_submodule() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.get_submodule"]], "half() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.half"]], "ipu() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.ipu"]], "load_state_dict() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.load_state_dict"]], "modules() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.modules"]], "named_buffers() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.named_buffers"]], "named_children() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.named_children"]], "named_modules() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.named_modules"]], "named_parameters() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.named_parameters"]], "parameters() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.parameters"]], "policies() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.policies"]], "register_backward_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_backward_hook"]], "register_buffer() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_buffer"]], "register_forward_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_forward_hook"]], "register_forward_pre_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_forward_pre_hook"]], "register_full_backward_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_full_backward_hook"]], "register_full_backward_pre_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_full_backward_pre_hook"]], "register_load_state_dict_post_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_load_state_dict_post_hook"]], "register_module() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_module"]], "register_parameter() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_parameter"]], "register_state_dict_pre_hook() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.register_state_dict_pre_hook"]], "requires_grad_() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.requires_grad_"]], "set_extra_state() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.set_extra_state"]], "share_memory() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.share_memory"]], "state_dict() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.state_dict"]], "to() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.to"]], "to_empty() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.to_empty"]], "train() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.train"]], "type() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.type"]], "values() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.values"]], "xpu() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.xpu"]], "zero_grad() (multmodel method)": [[10, "pantheonrl.algos.adap.policies.MultModel.zero_grad"]], "pantheonrl.algos.adap.util": [[11, "module-pantheonrl.algos.adap.util"]], "get_l2_sphere() (in module pantheonrl.algos.adap.util)": [[12, "pantheonrl.algos.adap.util.get_l2_sphere"]], "get_categorical() (in module pantheonrl.algos.adap.util)": [[13, "pantheonrl.algos.adap.util.get_categorical"]], "get_context_kl_loss() (in module pantheonrl.algos.adap.util)": [[14, "pantheonrl.algos.adap.util.get_context_kl_loss"]], "get_natural_number() (in module pantheonrl.algos.adap.util)": [[15, "pantheonrl.algos.adap.util.get_natural_number"]], "get_positive_square() (in module pantheonrl.algos.adap.util)": [[16, "pantheonrl.algos.adap.util.get_positive_square"]], "get_unit_square() (in module pantheonrl.algos.adap.util)": [[17, "pantheonrl.algos.adap.util.get_unit_square"]], "kl_divergence() (in module pantheonrl.algos.adap.util)": [[18, "pantheonrl.algos.adap.util.kl_divergence"]], "pantheonrl.algos.bc": [[19, "module-pantheonrl.algos.bc"]], "bc (class in pantheonrl.algos.bc)": [[20, "pantheonrl.algos.bc.BC"]], "default_batch_size (bc attribute)": [[20, "pantheonrl.algos.bc.BC.DEFAULT_BATCH_SIZE"]], "save_policy() (bc method)": [[20, "pantheonrl.algos.bc.BC.save_policy"]], "set_expert_data_loader() (bc method)": [[20, "pantheonrl.algos.bc.BC.set_expert_data_loader"]], "train() (bc method)": [[20, "pantheonrl.algos.bc.BC.train"]], "bcshell (class in pantheonrl.algos.bc)": [[21, "pantheonrl.algos.bc.BCShell"]], "get_policy() (bcshell method)": [[21, "pantheonrl.algos.bc.BCShell.get_policy"]], "set_policy() (bcshell method)": [[21, "pantheonrl.algos.bc.BCShell.set_policy"]], "constantlrschedule (class in pantheonrl.algos.bc)": [[22, "pantheonrl.algos.bc.ConstantLRSchedule"]], "__call__() (constantlrschedule method)": [[22, "pantheonrl.algos.bc.ConstantLRSchedule.__call__"]], "set_lr() (constantlrschedule method)": [[22, "pantheonrl.algos.bc.ConstantLRSchedule.set_lr"]], "epochorbatchiteratorwithprogress (class in pantheonrl.algos.bc)": [[23, "pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress"]], "set_data_loader() (epochorbatchiteratorwithprogress method)": [[23, "pantheonrl.algos.bc.EpochOrBatchIteratorWithProgress.set_data_loader"]], "reconstruct_policy() (in module pantheonrl.algos.bc)": [[24, "pantheonrl.algos.bc.reconstruct_policy"]], "pantheonrl.algos.modular": [[25, "module-pantheonrl.algos.modular"]], "pantheonrl.algos.modular.learn": [[26, "module-pantheonrl.algos.modular.learn"]], "modularalgorithm (class in pantheonrl.algos.modular.learn)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm"]], "collect_rollouts() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.collect_rollouts"]], "get_env() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.get_env"]], "get_parameters() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.get_parameters"]], "get_vec_normalize_env() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.get_vec_normalize_env"]], "learn() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.learn"]], "load() (modularalgorithm class method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.load"]], "logger (modularalgorithm property)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.logger"]], "predict() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.predict"]], "save() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.save"]], "set_env() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.set_env"]], "set_logger() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.set_logger"]], "set_parameters() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.set_parameters"]], "set_random_seed() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.set_random_seed"]], "train() (modularalgorithm method)": [[27, "pantheonrl.algos.modular.learn.ModularAlgorithm.train"]], "pantheonrl.algos.modular.policies": [[28, "module-pantheonrl.algos.modular.policies"]], "modularpolicy (class in pantheonrl.algos.modular.policies)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy"]], "__call__() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.__call__"]], "add_module() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.add_module"]], "apply() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.apply"]], "bfloat16() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.bfloat16"]], "buffers() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.buffers"]], "build_mlp_action_value_net() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.build_mlp_action_value_net"]], "children() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.children"]], "cpu() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.cpu"]], "cuda() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.cuda"]], "device (modularpolicy property)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.device"]], "do_init_weights() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.do_init_weights"]], "double() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.double"]], "eval() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.eval"]], "evaluate_actions() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.evaluate_actions"]], "extra_repr() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.extra_repr"]], "extract_features() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.extract_features"]], "float() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.float"]], "forward() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.forward"]], "get_action_logits_from_obs() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.get_action_logits_from_obs"]], "get_buffer() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.get_buffer"]], "get_extra_state() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.get_extra_state"]], "get_parameter() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.get_parameter"]], "get_submodule() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.get_submodule"]], "half() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.half"]], "init_weights() (modularpolicy static method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.init_weights"]], "ipu() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.ipu"]], "is_vectorized_observation() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.is_vectorized_observation"]], "load() (modularpolicy class method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.load"]], "load_from_vector() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.load_from_vector"]], "load_state_dict() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.load_state_dict"]], "make_action_dist_net() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.make_action_dist_net"]], "make_features_extractor() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.make_features_extractor"]], "modules() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.modules"]], "named_buffers() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.named_buffers"]], "named_children() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.named_children"]], "named_modules() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.named_modules"]], "named_parameters() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.named_parameters"]], "obs_to_tensor() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.obs_to_tensor"]], "overwrite_main() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.overwrite_main"]], "parameters() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.parameters"]], "parameters_to_vector() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.parameters_to_vector"]], "predict() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.predict"]], "register_backward_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_backward_hook"]], "register_buffer() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_buffer"]], "register_forward_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_forward_hook"]], "register_forward_pre_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_forward_pre_hook"]], "register_full_backward_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_full_backward_hook"]], "register_full_backward_pre_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_full_backward_pre_hook"]], "register_load_state_dict_post_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_load_state_dict_post_hook"]], "register_module() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_module"]], "register_parameter() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_parameter"]], "register_state_dict_pre_hook() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.register_state_dict_pre_hook"]], "requires_grad_() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.requires_grad_"]], "save() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.save"]], "scale_action() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.scale_action"]], "set_extra_state() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.set_extra_state"]], "set_freeze_main() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_main"]], "set_freeze_module() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_module"]], "set_freeze_partner() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.set_freeze_partner"]], "set_training_mode() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.set_training_mode"]], "share_memory() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.share_memory"]], "squash_output (modularpolicy property)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.squash_output"]], "state_dict() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.state_dict"]], "to() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.to"]], "to_empty() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.to_empty"]], "train() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.train"]], "type() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.type"]], "unscale_action() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.unscale_action"]], "xpu() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.xpu"]], "zero_grad() (modularpolicy method)": [[29, "pantheonrl.algos.modular.policies.ModularPolicy.zero_grad"]], "pantheonrl.common": [[30, "module-pantheonrl.common"]], "pantheonrl.common.agents": [[31, "module-pantheonrl.common.agents"]], "agent (class in pantheonrl.common.agents)": [[32, "pantheonrl.common.agents.Agent"]], "get_action() (agent method)": [[32, "pantheonrl.common.agents.Agent.get_action"]], "update() (agent method)": [[32, "pantheonrl.common.agents.Agent.update"]], "dummyagent (class in pantheonrl.common.agents)": [[33, "pantheonrl.common.agents.DummyAgent"]], "get_action() (dummyagent method)": [[33, "pantheonrl.common.agents.DummyAgent.get_action"]], "update() (dummyagent method)": [[33, "pantheonrl.common.agents.DummyAgent.update"]], "offpolicyagent (class in pantheonrl.common.agents)": [[34, "pantheonrl.common.agents.OffPolicyAgent"]], "get_action() (offpolicyagent method)": [[34, "pantheonrl.common.agents.OffPolicyAgent.get_action"]], "learn() (offpolicyagent method)": [[34, "pantheonrl.common.agents.OffPolicyAgent.learn"]], "update() (offpolicyagent method)": [[34, "pantheonrl.common.agents.OffPolicyAgent.update"]], "onpolicyagent (class in pantheonrl.common.agents)": [[35, "pantheonrl.common.agents.OnPolicyAgent"]], "get_action() (onpolicyagent method)": [[35, "pantheonrl.common.agents.OnPolicyAgent.get_action"]], "learn() (onpolicyagent method)": [[35, "pantheonrl.common.agents.OnPolicyAgent.learn"]], "update() (onpolicyagent method)": [[35, "pantheonrl.common.agents.OnPolicyAgent.update"]], "recordingagentwrapper (class in pantheonrl.common.agents)": [[36, "pantheonrl.common.agents.RecordingAgentWrapper"]], "get_action() (recordingagentwrapper method)": [[36, "pantheonrl.common.agents.RecordingAgentWrapper.get_action"]], "get_transitions() (recordingagentwrapper method)": [[36, "pantheonrl.common.agents.RecordingAgentWrapper.get_transitions"]], "update() (recordingagentwrapper method)": [[36, "pantheonrl.common.agents.RecordingAgentWrapper.update"]], "staticpolicyagent (class in pantheonrl.common.agents)": [[37, "pantheonrl.common.agents.StaticPolicyAgent"]], "get_action() (staticpolicyagent method)": [[37, "pantheonrl.common.agents.StaticPolicyAgent.get_action"]], "update() (staticpolicyagent method)": [[37, "pantheonrl.common.agents.StaticPolicyAgent.update"]], "pantheonrl.common.multiagentenv": [[38, "module-pantheonrl.common.multiagentenv"]], "dummyenv (class in pantheonrl.common.multiagentenv)": [[39, "pantheonrl.common.multiagentenv.DummyEnv"]], "close() (dummyenv method)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.close"]], "get_wrapper_attr() (dummyenv method)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.get_wrapper_attr"]], "np_random (dummyenv property)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.np_random"]], "render() (dummyenv method)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.render"]], "reset() (dummyenv method)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.reset"]], "step() (dummyenv method)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.step"]], "unwrapped (dummyenv property)": [[39, "pantheonrl.common.multiagentenv.DummyEnv.unwrapped"]], "killenvexception": [[40, "pantheonrl.common.multiagentenv.KillEnvException"]], "multiagentenv (class in pantheonrl.common.multiagentenv)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv"]], "action_space (multiagentenv property)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.action_space"]], "add_partner_agent() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.add_partner_agent"]], "close() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.close"]], "construct_single_agent_interface() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.construct_single_agent_interface"]], "get_dummy_env() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.get_dummy_env"]], "get_ego_ind() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.get_ego_ind"]], "get_wrapper_attr() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.get_wrapper_attr"]], "n_reset() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.n_reset"]], "n_step() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.n_step"]], "np_random (multiagentenv property)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.np_random"]], "observation_space (multiagentenv property)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.observation_space"]], "render() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.render"]], "resample_null() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.resample_null"]], "resample_random() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.resample_random"]], "resample_round_robin() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.resample_round_robin"]], "reset() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.reset"]], "set_ego_extractor() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_extractor"]], "set_ego_ind() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.set_ego_ind"]], "set_partnerid() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.set_partnerid"]], "set_resample_policy() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.set_resample_policy"]], "step() (multiagentenv method)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.step"]], "unwrapped (multiagentenv property)": [[41, "pantheonrl.common.multiagentenv.MultiAgentEnv.unwrapped"]], "playerexception": [[42, "pantheonrl.common.multiagentenv.PlayerException"]], "simultaneousenv (class in pantheonrl.common.multiagentenv)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv"]], "action_space (simultaneousenv property)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.action_space"]], "add_partner_agent() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.add_partner_agent"]], "close() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.close"]], "construct_single_agent_interface() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.construct_single_agent_interface"]], "get_dummy_env() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.get_dummy_env"]], "get_ego_ind() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.get_ego_ind"]], "get_wrapper_attr() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.get_wrapper_attr"]], "multi_reset() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.multi_reset"]], "multi_step() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.multi_step"]], "n_reset() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.n_reset"]], "n_step() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.n_step"]], "np_random (simultaneousenv property)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.np_random"]], "observation_space (simultaneousenv property)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.observation_space"]], "render() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.render"]], "resample_null() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.resample_null"]], "resample_random() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.resample_random"]], "resample_round_robin() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.resample_round_robin"]], "reset() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.reset"]], "set_ego_extractor() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_extractor"]], "set_ego_ind() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.set_ego_ind"]], "set_partnerid() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.set_partnerid"]], "set_resample_policy() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.set_resample_policy"]], "step() (simultaneousenv method)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.step"]], "unwrapped (simultaneousenv property)": [[43, "pantheonrl.common.multiagentenv.SimultaneousEnv.unwrapped"]], "turnbasedenv (class in pantheonrl.common.multiagentenv)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv"]], "action_space (turnbasedenv property)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.action_space"]], "add_partner_agent() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.add_partner_agent"]], "alt_step() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.alt_step"]], "close() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.close"]], "construct_single_agent_interface() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.construct_single_agent_interface"]], "ego_step() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.ego_step"]], "get_dummy_env() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.get_dummy_env"]], "get_ego_ind() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.get_ego_ind"]], "get_wrapper_attr() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.get_wrapper_attr"]], "multi_reset() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.multi_reset"]], "n_reset() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.n_reset"]], "n_step() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.n_step"]], "np_random (turnbasedenv property)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.np_random"]], "observation_space (turnbasedenv property)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.observation_space"]], "render() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.render"]], "resample_null() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.resample_null"]], "resample_random() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.resample_random"]], "resample_round_robin() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.resample_round_robin"]], "reset() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.reset"]], "set_ego_extractor() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_extractor"]], "set_ego_ind() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.set_ego_ind"]], "set_partnerid() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.set_partnerid"]], "set_resample_policy() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.set_resample_policy"]], "step() (turnbasedenv method)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.step"]], "unwrapped (turnbasedenv property)": [[44, "pantheonrl.common.multiagentenv.TurnBasedEnv.unwrapped"]], "pantheonrl.common.observation": [[45, "module-pantheonrl.common.observation"]], "observation (class in pantheonrl.common.observation)": [[46, "pantheonrl.common.observation.Observation"]], "action_mask (observation attribute)": [[46, "pantheonrl.common.observation.Observation.action_mask"]], "obs (observation attribute)": [[46, "pantheonrl.common.observation.Observation.obs"]], "state (observation attribute)": [[46, "pantheonrl.common.observation.Observation.state"]], "extract_obs() (in module pantheonrl.common.observation)": [[47, "pantheonrl.common.observation.extract_obs"]], "extract_partial_obs() (in module pantheonrl.common.observation)": [[48, "pantheonrl.common.observation.extract_partial_obs"]], "pantheonrl.common.trajsaver": [[49, "module-pantheonrl.common.trajsaver"]], "multitransitions (class in pantheonrl.common.trajsaver)": [[50, "pantheonrl.common.trajsaver.MultiTransitions"]], "get_alt_transitions() (multitransitions method)": [[50, "pantheonrl.common.trajsaver.MultiTransitions.get_alt_transitions"]], "get_ego_transitions() (multitransitions method)": [[50, "pantheonrl.common.trajsaver.MultiTransitions.get_ego_transitions"]], "write_transition() (multitransitions method)": [[50, "pantheonrl.common.trajsaver.MultiTransitions.write_transition"]], "simultaneoustransitions (class in pantheonrl.common.trajsaver)": [[51, "pantheonrl.common.trajsaver.SimultaneousTransitions"]], "get_alt_transitions() (simultaneoustransitions method)": [[51, "pantheonrl.common.trajsaver.SimultaneousTransitions.get_alt_transitions"]], "get_ego_transitions() (simultaneoustransitions method)": [[51, "pantheonrl.common.trajsaver.SimultaneousTransitions.get_ego_transitions"]], "read_transition() (simultaneoustransitions class method)": [[51, "pantheonrl.common.trajsaver.SimultaneousTransitions.read_transition"]], "write_transition() (simultaneoustransitions method)": [[51, "pantheonrl.common.trajsaver.SimultaneousTransitions.write_transition"]], "transitionsminimal (class in pantheonrl.common.trajsaver)": [[52, "pantheonrl.common.trajsaver.TransitionsMinimal"]], "acts (transitionsminimal attribute)": [[52, "pantheonrl.common.trajsaver.TransitionsMinimal.acts"]], "obs (transitionsminimal attribute)": [[52, "pantheonrl.common.trajsaver.TransitionsMinimal.obs"]], "read_transition() (transitionsminimal class method)": [[52, "pantheonrl.common.trajsaver.TransitionsMinimal.read_transition"]], "write_transition() (transitionsminimal method)": [[52, "pantheonrl.common.trajsaver.TransitionsMinimal.write_transition"]], "turnbasedtransitions (class in pantheonrl.common.trajsaver)": [[53, "pantheonrl.common.trajsaver.TurnBasedTransitions"]], "get_alt_transitions() (turnbasedtransitions method)": [[53, "pantheonrl.common.trajsaver.TurnBasedTransitions.get_alt_transitions"]], "get_ego_transitions() (turnbasedtransitions method)": [[53, "pantheonrl.common.trajsaver.TurnBasedTransitions.get_ego_transitions"]], "read_transition() (turnbasedtransitions class method)": [[53, "pantheonrl.common.trajsaver.TurnBasedTransitions.read_transition"]], "write_transition() (turnbasedtransitions method)": [[53, "pantheonrl.common.trajsaver.TurnBasedTransitions.write_transition"]], "dataclass_quick_asdict() (in module pantheonrl.common.trajsaver)": [[54, "pantheonrl.common.trajsaver.dataclass_quick_asdict"]], "transitions_collate_fn() (in module pantheonrl.common.trajsaver)": [[55, "pantheonrl.common.trajsaver.transitions_collate_fn"]], "pantheonrl.common.util": [[56, "module-pantheonrl.common.util"]], "feedforward32policy (class in pantheonrl.common.util)": [[57, "pantheonrl.common.util.FeedForward32Policy"]], "__call__() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.__call__"]], "add_module() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.add_module"]], "apply() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.apply"]], "bfloat16() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.bfloat16"]], "buffers() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.buffers"]], "children() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.children"]], "cpu() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.cpu"]], "cuda() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.cuda"]], "device (feedforward32policy property)": [[57, "pantheonrl.common.util.FeedForward32Policy.device"]], "double() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.double"]], "eval() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.eval"]], "evaluate_actions() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.evaluate_actions"]], "extra_repr() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.extra_repr"]], "extract_features() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.extract_features"]], "float() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.float"]], "forward() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.forward"]], "get_buffer() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.get_buffer"]], "get_distribution() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.get_distribution"]], "get_extra_state() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.get_extra_state"]], "get_parameter() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.get_parameter"]], "get_submodule() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.get_submodule"]], "half() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.half"]], "init_weights() (feedforward32policy static method)": [[57, "pantheonrl.common.util.FeedForward32Policy.init_weights"]], "ipu() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.ipu"]], "is_vectorized_observation() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.is_vectorized_observation"]], "load() (feedforward32policy class method)": [[57, "pantheonrl.common.util.FeedForward32Policy.load"]], "load_from_vector() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.load_from_vector"]], "load_state_dict() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.load_state_dict"]], "make_features_extractor() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.make_features_extractor"]], "modules() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.modules"]], "named_buffers() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.named_buffers"]], "named_children() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.named_children"]], "named_modules() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.named_modules"]], "named_parameters() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.named_parameters"]], "obs_to_tensor() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.obs_to_tensor"]], "parameters() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.parameters"]], "parameters_to_vector() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.parameters_to_vector"]], "predict() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.predict"]], "predict_values() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.predict_values"]], "register_backward_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_backward_hook"]], "register_buffer() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_buffer"]], "register_forward_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_forward_hook"]], "register_forward_pre_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_forward_pre_hook"]], "register_full_backward_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_full_backward_hook"]], "register_full_backward_pre_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_full_backward_pre_hook"]], "register_load_state_dict_post_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_load_state_dict_post_hook"]], "register_module() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_module"]], "register_parameter() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_parameter"]], "register_state_dict_pre_hook() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.register_state_dict_pre_hook"]], "requires_grad_() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.requires_grad_"]], "reset_noise() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.reset_noise"]], "save() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.save"]], "scale_action() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.scale_action"]], "set_extra_state() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.set_extra_state"]], "set_training_mode() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.set_training_mode"]], "share_memory() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.share_memory"]], "squash_output (feedforward32policy property)": [[57, "pantheonrl.common.util.FeedForward32Policy.squash_output"]], "state_dict() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.state_dict"]], "to() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.to"]], "to_empty() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.to_empty"]], "train() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.train"]], "type() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.type"]], "unscale_action() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.unscale_action"]], "xpu() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.xpu"]], "zero_grad() (feedforward32policy method)": [[57, "pantheonrl.common.util.FeedForward32Policy.zero_grad"]], "spaceexception": [[58, "pantheonrl.common.util.SpaceException"]], "action_from_policy() (in module pantheonrl.common.util)": [[59, "pantheonrl.common.util.action_from_policy"]], "calculate_space() (in module pantheonrl.common.util)": [[60, "pantheonrl.common.util.calculate_space"]], "clip_actions() (in module pantheonrl.common.util)": [[61, "pantheonrl.common.util.clip_actions"]], "get_default_obs() (in module pantheonrl.common.util)": [[62, "pantheonrl.common.util.get_default_obs"]], "get_space_size() (in module pantheonrl.common.util)": [[63, "pantheonrl.common.util.get_space_size"]], "resample_noise() (in module pantheonrl.common.util)": [[64, "pantheonrl.common.util.resample_noise"]], "pantheonrl.common.wrappers": [[65, "module-pantheonrl.common.wrappers"]], "historyqueue (class in pantheonrl.common.wrappers)": [[66, "pantheonrl.common.wrappers.HistoryQueue"]], "add() (historyqueue method)": [[66, "pantheonrl.common.wrappers.HistoryQueue.add"]], "reset() (historyqueue method)": [[66, "pantheonrl.common.wrappers.HistoryQueue.reset"]], "multirecorder (class in pantheonrl.common.wrappers)": [[67, "pantheonrl.common.wrappers.MultiRecorder"]], "get_transitions() (multirecorder method)": [[67, "pantheonrl.common.wrappers.MultiRecorder.get_transitions"]], "write_transition() (multirecorder method)": [[67, "pantheonrl.common.wrappers.MultiRecorder.write_transition"]], "simultaneousframestack (class in pantheonrl.common.wrappers)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack"]], "action_space (simultaneousframestack property)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.action_space"]], "add_partner_agent() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.add_partner_agent"]], "close() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.close"]], "construct_single_agent_interface() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.construct_single_agent_interface"]], "get_dummy_env() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.get_dummy_env"]], "get_ego_ind() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.get_ego_ind"]], "get_wrapper_attr() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.get_wrapper_attr"]], "multi_reset() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.multi_reset"]], "multi_step() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.multi_step"]], "n_reset() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.n_reset"]], "n_step() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.n_step"]], "np_random (simultaneousframestack property)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.np_random"]], "observation_space (simultaneousframestack property)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.observation_space"]], "render() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.render"]], "resample_null() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.resample_null"]], "resample_random() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.resample_random"]], "resample_round_robin() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.resample_round_robin"]], "reset() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.reset"]], "set_ego_extractor() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_extractor"]], "set_ego_ind() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.set_ego_ind"]], "set_partnerid() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.set_partnerid"]], "set_resample_policy() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.set_resample_policy"]], "step() (simultaneousframestack method)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.step"]], "unwrapped (simultaneousframestack property)": [[68, "pantheonrl.common.wrappers.SimultaneousFrameStack.unwrapped"]], "simultaneousrecorder (class in pantheonrl.common.wrappers)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder"]], "action_space (simultaneousrecorder property)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.action_space"]], "add_partner_agent() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.add_partner_agent"]], "close() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.close"]], "construct_single_agent_interface() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.construct_single_agent_interface"]], "get_dummy_env() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.get_dummy_env"]], "get_ego_ind() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.get_ego_ind"]], "get_transitions() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.get_transitions"]], "get_wrapper_attr() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.get_wrapper_attr"]], "multi_reset() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.multi_reset"]], "multi_step() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.multi_step"]], "n_reset() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.n_reset"]], "n_step() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.n_step"]], "np_random (simultaneousrecorder property)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.np_random"]], "observation_space (simultaneousrecorder property)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.observation_space"]], "render() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.render"]], "resample_null() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.resample_null"]], "resample_random() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.resample_random"]], "resample_round_robin() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.resample_round_robin"]], "reset() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.reset"]], "set_ego_extractor() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_extractor"]], "set_ego_ind() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.set_ego_ind"]], "set_partnerid() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.set_partnerid"]], "set_resample_policy() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.set_resample_policy"]], "step() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.step"]], "unwrapped (simultaneousrecorder property)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.unwrapped"]], "write_transition() (simultaneousrecorder method)": [[69, "pantheonrl.common.wrappers.SimultaneousRecorder.write_transition"]], "turnbasedframestack (class in pantheonrl.common.wrappers)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack"]], "action_space (turnbasedframestack property)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.action_space"]], "add_partner_agent() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.add_partner_agent"]], "alt_step() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.alt_step"]], "close() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.close"]], "construct_single_agent_interface() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.construct_single_agent_interface"]], "ego_step() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.ego_step"]], "get_dummy_env() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.get_dummy_env"]], "get_ego_ind() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.get_ego_ind"]], "get_wrapper_attr() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.get_wrapper_attr"]], "multi_reset() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.multi_reset"]], "n_reset() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.n_reset"]], "n_step() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.n_step"]], "np_random (turnbasedframestack property)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.np_random"]], "observation_space (turnbasedframestack property)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.observation_space"]], "render() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.render"]], "resample_null() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.resample_null"]], "resample_random() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.resample_random"]], "resample_round_robin() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.resample_round_robin"]], "reset() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.reset"]], "set_ego_extractor() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_extractor"]], "set_ego_ind() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.set_ego_ind"]], "set_partnerid() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.set_partnerid"]], "set_resample_policy() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.set_resample_policy"]], "step() (turnbasedframestack method)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.step"]], "unwrapped (turnbasedframestack property)": [[70, "pantheonrl.common.wrappers.TurnBasedFrameStack.unwrapped"]], "turnbasedrecorder (class in pantheonrl.common.wrappers)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder"]], "action_space (turnbasedrecorder property)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.action_space"]], "add_partner_agent() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.add_partner_agent"]], "alt_step() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.alt_step"]], "close() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.close"]], "construct_single_agent_interface() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.construct_single_agent_interface"]], "ego_step() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.ego_step"]], "get_dummy_env() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.get_dummy_env"]], "get_ego_ind() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.get_ego_ind"]], "get_transitions() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.get_transitions"]], "get_wrapper_attr() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.get_wrapper_attr"]], "multi_reset() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.multi_reset"]], "n_reset() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.n_reset"]], "n_step() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.n_step"]], "np_random (turnbasedrecorder property)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.np_random"]], "observation_space (turnbasedrecorder property)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.observation_space"]], "render() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.render"]], "resample_null() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.resample_null"]], "resample_random() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.resample_random"]], "resample_round_robin() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.resample_round_robin"]], "reset() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.reset"]], "set_ego_extractor() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_extractor"]], "set_ego_ind() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.set_ego_ind"]], "set_partnerid() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.set_partnerid"]], "set_resample_policy() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.set_resample_policy"]], "step() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.step"]], "unwrapped (turnbasedrecorder property)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.unwrapped"]], "write_transition() (turnbasedrecorder method)": [[71, "pantheonrl.common.wrappers.TurnBasedRecorder.write_transition"]], "frame_wrap() (in module pantheonrl.common.wrappers)": [[72, "pantheonrl.common.wrappers.frame_wrap"]], "recorder_wrap() (in module pantheonrl.common.wrappers)": [[73, "pantheonrl.common.wrappers.recorder_wrap"]], "pantheonrl.envs": [[74, "module-pantheonrl.envs"]], "pantheonrl.envs.blockworldgym": [[75, "module-pantheonrl.envs.blockworldgym"]], "pantheonrl.envs.blockworldgym.blockworld": [[76, "module-pantheonrl.envs.blockworldgym.blockworld"]], "blockenv (class in pantheonrl.envs.blockworldgym.blockworld)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv"]], "action_space (blockenv property)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.action_space"]], "add_partner_agent() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.add_partner_agent"]], "alt_step() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.alt_step"]], "close() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.close"]], "construct_single_agent_interface() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.construct_single_agent_interface"]], "ego_step() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.ego_step"]], "get_dummy_env() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.get_dummy_env"]], "get_ego_ind() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.get_ego_ind"]], "get_wrapper_attr() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.get_wrapper_attr"]], "multi_reset() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.multi_reset"]], "n_reset() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.n_reset"]], "n_step() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.n_step"]], "np_random (blockenv property)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.np_random"]], "observation_space (blockenv property)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.observation_space"]], "render() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.render"]], "resample_null() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_null"]], "resample_random() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_random"]], "resample_round_robin() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.resample_round_robin"]], "reset() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.reset"]], "set_ego_extractor() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_extractor"]], "set_ego_ind() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_ego_ind"]], "set_partnerid() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_partnerid"]], "set_resample_policy() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.set_resample_policy"]], "step() (blockenv method)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.step"]], "unwrapped (blockenv property)": [[77, "pantheonrl.envs.blockworldgym.blockworld.BlockEnv.unwrapped"]], "defaultconstructoragent (class in pantheonrl.envs.blockworldgym.blockworld)": [[78, "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent"]], "get_action() (defaultconstructoragent method)": [[78, "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent.get_action"]], "update() (defaultconstructoragent method)": [[78, "pantheonrl.envs.blockworldgym.blockworld.DefaultConstructorAgent.update"]], "pantheonrl.envs.blockworldgym.gridutils": [[79, "module-pantheonrl.envs.blockworldgym.gridutils"]], "drop_random() (in module pantheonrl.envs.blockworldgym.gridutils)": [[80, "pantheonrl.envs.blockworldgym.gridutils.drop_random"]], "generate_random_world() (in module pantheonrl.envs.blockworldgym.gridutils)": [[81, "pantheonrl.envs.blockworldgym.gridutils.generate_random_world"]], "gravity() (in module pantheonrl.envs.blockworldgym.gridutils)": [[82, "pantheonrl.envs.blockworldgym.gridutils.gravity"]], "matches() (in module pantheonrl.envs.blockworldgym.gridutils)": [[83, "pantheonrl.envs.blockworldgym.gridutils.matches"]], "place() (in module pantheonrl.envs.blockworldgym.gridutils)": [[84, "pantheonrl.envs.blockworldgym.gridutils.place"]], "pantheonrl.envs.blockworldgym.rendering": [[85, "module-pantheonrl.envs.blockworldgym.rendering"]], "attr (class in pantheonrl.envs.blockworldgym.rendering)": [[86, "pantheonrl.envs.blockworldgym.rendering.Attr"]], "disable() (attr method)": [[86, "pantheonrl.envs.blockworldgym.rendering.Attr.disable"]], "enable() (attr method)": [[86, "pantheonrl.envs.blockworldgym.rendering.Attr.enable"]], "color (class in pantheonrl.envs.blockworldgym.rendering)": [[87, "pantheonrl.envs.blockworldgym.rendering.Color"]], "disable() (color method)": [[87, "pantheonrl.envs.blockworldgym.rendering.Color.disable"]], "enable() (color method)": [[87, "pantheonrl.envs.blockworldgym.rendering.Color.enable"]], "compound (class in pantheonrl.envs.blockworldgym.rendering)": [[88, "pantheonrl.envs.blockworldgym.rendering.Compound"]], "add_attr() (compound method)": [[88, "pantheonrl.envs.blockworldgym.rendering.Compound.add_attr"]], "render() (compound method)": [[88, "pantheonrl.envs.blockworldgym.rendering.Compound.render"]], "render1() (compound method)": [[88, "pantheonrl.envs.blockworldgym.rendering.Compound.render1"]], "set_color() (compound method)": [[88, "pantheonrl.envs.blockworldgym.rendering.Compound.set_color"]], "filledpolygon (class in pantheonrl.envs.blockworldgym.rendering)": [[89, "pantheonrl.envs.blockworldgym.rendering.FilledPolygon"]], "add_attr() (filledpolygon method)": [[89, "pantheonrl.envs.blockworldgym.rendering.FilledPolygon.add_attr"]], "render() (filledpolygon method)": [[89, "pantheonrl.envs.blockworldgym.rendering.FilledPolygon.render"]], "render1() (filledpolygon method)": [[89, "pantheonrl.envs.blockworldgym.rendering.FilledPolygon.render1"]], "set_color() (filledpolygon method)": [[89, "pantheonrl.envs.blockworldgym.rendering.FilledPolygon.set_color"]], "geom (class in pantheonrl.envs.blockworldgym.rendering)": [[90, "pantheonrl.envs.blockworldgym.rendering.Geom"]], "add_attr() (geom method)": [[90, "pantheonrl.envs.blockworldgym.rendering.Geom.add_attr"]], "render() (geom method)": [[90, "pantheonrl.envs.blockworldgym.rendering.Geom.render"]], "render1() (geom method)": [[90, "pantheonrl.envs.blockworldgym.rendering.Geom.render1"]], "set_color() (geom method)": [[90, "pantheonrl.envs.blockworldgym.rendering.Geom.set_color"]], "image (class in pantheonrl.envs.blockworldgym.rendering)": [[91, "pantheonrl.envs.blockworldgym.rendering.Image"]], "add_attr() (image method)": [[91, "pantheonrl.envs.blockworldgym.rendering.Image.add_attr"]], "render() (image method)": [[91, "pantheonrl.envs.blockworldgym.rendering.Image.render"]], "render1() (image method)": [[91, "pantheonrl.envs.blockworldgym.rendering.Image.render1"]], "set_color() (image method)": [[91, "pantheonrl.envs.blockworldgym.rendering.Image.set_color"]], "line (class in pantheonrl.envs.blockworldgym.rendering)": [[92, "pantheonrl.envs.blockworldgym.rendering.Line"]], "add_attr() (line method)": [[92, "pantheonrl.envs.blockworldgym.rendering.Line.add_attr"]], "render() (line method)": [[92, "pantheonrl.envs.blockworldgym.rendering.Line.render"]], "render1() (line method)": [[92, "pantheonrl.envs.blockworldgym.rendering.Line.render1"]], "set_color() (line method)": [[92, "pantheonrl.envs.blockworldgym.rendering.Line.set_color"]], "linestyle (class in pantheonrl.envs.blockworldgym.rendering)": [[93, "pantheonrl.envs.blockworldgym.rendering.LineStyle"]], "disable() (linestyle method)": [[93, "pantheonrl.envs.blockworldgym.rendering.LineStyle.disable"]], "enable() (linestyle method)": [[93, "pantheonrl.envs.blockworldgym.rendering.LineStyle.enable"]], "linewidth (class in pantheonrl.envs.blockworldgym.rendering)": [[94, "pantheonrl.envs.blockworldgym.rendering.LineWidth"]], "disable() (linewidth method)": [[94, "pantheonrl.envs.blockworldgym.rendering.LineWidth.disable"]], "enable() (linewidth method)": [[94, "pantheonrl.envs.blockworldgym.rendering.LineWidth.enable"]], "point (class in pantheonrl.envs.blockworldgym.rendering)": [[95, "pantheonrl.envs.blockworldgym.rendering.Point"]], "add_attr() (point method)": [[95, "pantheonrl.envs.blockworldgym.rendering.Point.add_attr"]], "render() (point method)": [[95, "pantheonrl.envs.blockworldgym.rendering.Point.render"]], "render1() (point method)": [[95, "pantheonrl.envs.blockworldgym.rendering.Point.render1"]], "set_color() (point method)": [[95, "pantheonrl.envs.blockworldgym.rendering.Point.set_color"]], "polyline (class in pantheonrl.envs.blockworldgym.rendering)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine"]], "add_attr() (polyline method)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine.add_attr"]], "render() (polyline method)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine.render"]], "render1() (polyline method)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine.render1"]], "set_color() (polyline method)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine.set_color"]], "set_linewidth() (polyline method)": [[96, "pantheonrl.envs.blockworldgym.rendering.PolyLine.set_linewidth"]], "simpleimageviewer (class in pantheonrl.envs.blockworldgym.rendering)": [[97, "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer"]], "close() (simpleimageviewer method)": [[97, "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer.close"]], "imshow() (simpleimageviewer method)": [[97, "pantheonrl.envs.blockworldgym.rendering.SimpleImageViewer.imshow"]], "transform (class in pantheonrl.envs.blockworldgym.rendering)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform"]], "disable() (transform method)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform.disable"]], "enable() (transform method)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform.enable"]], "set_rotation() (transform method)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform.set_rotation"]], "set_scale() (transform method)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform.set_scale"]], "set_translation() (transform method)": [[98, "pantheonrl.envs.blockworldgym.rendering.Transform.set_translation"]], "viewer (class in pantheonrl.envs.blockworldgym.rendering)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer"]], "add_geom() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.add_geom"]], "add_onetime() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.add_onetime"]], "close() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.close"]], "draw_circle() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.draw_circle"]], "draw_line() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.draw_line"]], "draw_polygon() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.draw_polygon"]], "draw_polyline() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.draw_polyline"]], "get_array() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.get_array"]], "render() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.render"]], "set_bounds() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.set_bounds"]], "window_closed_by_user() (viewer method)": [[99, "pantheonrl.envs.blockworldgym.rendering.Viewer.window_closed_by_user"]], "get_display() (in module pantheonrl.envs.blockworldgym.rendering)": [[100, "pantheonrl.envs.blockworldgym.rendering.get_display"]], "get_window() (in module pantheonrl.envs.blockworldgym.rendering)": [[101, "pantheonrl.envs.blockworldgym.rendering.get_window"]], "make_capsule() (in module pantheonrl.envs.blockworldgym.rendering)": [[102, "pantheonrl.envs.blockworldgym.rendering.make_capsule"]], "make_circle() (in module pantheonrl.envs.blockworldgym.rendering)": [[103, "pantheonrl.envs.blockworldgym.rendering.make_circle"]], "make_polygon() (in module pantheonrl.envs.blockworldgym.rendering)": [[104, "pantheonrl.envs.blockworldgym.rendering.make_polygon"]], "make_polyline() (in module pantheonrl.envs.blockworldgym.rendering)": [[105, "pantheonrl.envs.blockworldgym.rendering.make_polyline"]], "pantheonrl.envs.blockworldgym.simpleblockworld": [[106, "module-pantheonrl.envs.blockworldgym.simpleblockworld"]], "sbwdefaultagent (class in pantheonrl.envs.blockworldgym.simpleblockworld)": [[107, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent"]], "get_action() (sbwdefaultagent method)": [[107, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent.get_action"]], "update() (sbwdefaultagent method)": [[107, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWDefaultAgent.update"]], "sbweasypartner (class in pantheonrl.envs.blockworldgym.simpleblockworld)": [[108, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner"]], "get_action() (sbweasypartner method)": [[108, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner.get_action"]], "update() (sbweasypartner method)": [[108, "pantheonrl.envs.blockworldgym.simpleblockworld.SBWEasyPartner.update"]], "simpleblockenv (class in pantheonrl.envs.blockworldgym.simpleblockworld)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv"]], "action_space (simpleblockenv property)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.action_space"]], "add_partner_agent() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.add_partner_agent"]], "alt_step() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.alt_step"]], "close() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.close"]], "construct_single_agent_interface() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.construct_single_agent_interface"]], "ego_step() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.ego_step"]], "get_dummy_env() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.get_dummy_env"]], "get_ego_ind() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.get_ego_ind"]], "get_wrapper_attr() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.get_wrapper_attr"]], "multi_reset() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.multi_reset"]], "n_reset() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.n_reset"]], "n_step() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.n_step"]], "np_random (simpleblockenv property)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.np_random"]], "observation_space (simpleblockenv property)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.observation_space"]], "render() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.render"]], "resample_null() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_null"]], "resample_random() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_random"]], "resample_round_robin() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.resample_round_robin"]], "reset() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.reset"]], "set_ego_extractor() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_extractor"]], "set_ego_ind() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_ego_ind"]], "set_partnerid() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_partnerid"]], "set_resample_policy() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.set_resample_policy"]], "step() (simpleblockenv method)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.step"]], "unwrapped (simpleblockenv property)": [[109, "pantheonrl.envs.blockworldgym.simpleblockworld.SimpleBlockEnv.unwrapped"]], "generate_grid_world() (in module pantheonrl.envs.blockworldgym.simpleblockworld)": [[110, "pantheonrl.envs.blockworldgym.simpleblockworld.generate_grid_world"]], "random_block() (in module pantheonrl.envs.blockworldgym.simpleblockworld)": [[111, "pantheonrl.envs.blockworldgym.simpleblockworld.random_block"]], "pantheonrl.envs.liargym": [[112, "module-pantheonrl.envs.liargym"]], "pantheonrl.envs.liargym.liar": [[113, "module-pantheonrl.envs.liargym.liar"]], "liardefaultagent (class in pantheonrl.envs.liargym.liar)": [[114, "pantheonrl.envs.liargym.liar.LiarDefaultAgent"]], "get_action() (liardefaultagent method)": [[114, "pantheonrl.envs.liargym.liar.LiarDefaultAgent.get_action"]], "update() (liardefaultagent method)": [[114, "pantheonrl.envs.liargym.liar.LiarDefaultAgent.update"]], "liarenv (class in pantheonrl.envs.liargym.liar)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv"]], "action_space (liarenv property)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.action_space"]], "add_partner_agent() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.add_partner_agent"]], "alt_step() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.alt_step"]], "close() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.close"]], "construct_single_agent_interface() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.construct_single_agent_interface"]], "ego_step() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.ego_step"]], "get_dummy_env() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.get_dummy_env"]], "get_ego_ind() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.get_ego_ind"]], "get_wrapper_attr() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.get_wrapper_attr"]], "multi_reset() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.multi_reset"]], "n_reset() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.n_reset"]], "n_step() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.n_step"]], "np_random (liarenv property)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.np_random"]], "observation_space (liarenv property)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.observation_space"]], "render() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.render"]], "resample_null() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.resample_null"]], "resample_random() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.resample_random"]], "resample_round_robin() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.resample_round_robin"]], "reset() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.reset"]], "set_ego_extractor() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.set_ego_extractor"]], "set_ego_ind() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.set_ego_ind"]], "set_partnerid() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.set_partnerid"]], "set_resample_policy() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.set_resample_policy"]], "step() (liarenv method)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.step"]], "unwrapped (liarenv property)": [[115, "pantheonrl.envs.liargym.liar.LiarEnv.unwrapped"]], "pantheonrl.envs.pettingzoo": [[116, "module-pantheonrl.envs.pettingzoo"]], "pettingzooaecwrapper (class in pantheonrl.envs.pettingzoo)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper"]], "action_space (pettingzooaecwrapper property)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.action_space"]], "add_partner_agent() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.add_partner_agent"]], "close() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.close"]], "construct_single_agent_interface() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.construct_single_agent_interface"]], "get_dummy_env() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.get_dummy_env"]], "get_ego_ind() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.get_ego_ind"]], "get_wrapper_attr() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.get_wrapper_attr"]], "n_reset() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.n_reset"]], "n_step() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.n_step"]], "np_random (pettingzooaecwrapper property)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.np_random"]], "observation_space (pettingzooaecwrapper property)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.observation_space"]], "render() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.render"]], "resample_null() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_null"]], "resample_random() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_random"]], "resample_round_robin() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.resample_round_robin"]], "reset() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.reset"]], "set_ego_extractor() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_extractor"]], "set_ego_ind() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_ego_ind"]], "set_partnerid() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_partnerid"]], "set_resample_policy() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.set_resample_policy"]], "step() (pettingzooaecwrapper method)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.step"]], "unwrapped (pettingzooaecwrapper property)": [[117, "pantheonrl.envs.pettingzoo.PettingZooAECWrapper.unwrapped"]], "pantheonrl.envs.rpsgym": [[118, "module-pantheonrl.envs.rpsgym"]], "pantheonrl.envs.rpsgym.rps": [[119, "module-pantheonrl.envs.rpsgym.rps"]], "rpsenv (class in pantheonrl.envs.rpsgym.rps)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv"]], "action_space (rpsenv property)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.action_space"]], "add_partner_agent() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.add_partner_agent"]], "close() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.close"]], "construct_single_agent_interface() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.construct_single_agent_interface"]], "get_dummy_env() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.get_dummy_env"]], "get_ego_ind() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.get_ego_ind"]], "get_wrapper_attr() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.get_wrapper_attr"]], "multi_reset() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.multi_reset"]], "multi_step() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.multi_step"]], "n_reset() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.n_reset"]], "n_step() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.n_step"]], "np_random (rpsenv property)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.np_random"]], "observation_space (rpsenv property)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.observation_space"]], "render() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.render"]], "resample_null() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.resample_null"]], "resample_random() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.resample_random"]], "resample_round_robin() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.resample_round_robin"]], "reset() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.reset"]], "set_ego_extractor() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_extractor"]], "set_ego_ind() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.set_ego_ind"]], "set_partnerid() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.set_partnerid"]], "set_resample_policy() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.set_resample_policy"]], "step() (rpsenv method)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.step"]], "unwrapped (rpsenv property)": [[120, "pantheonrl.envs.rpsgym.rps.RPSEnv.unwrapped"]], "rpsweightedagent (class in pantheonrl.envs.rpsgym.rps)": [[121, "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent"]], "get_action() (rpsweightedagent method)": [[121, "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent.get_action"]], "update() (rpsweightedagent method)": [[121, "pantheonrl.envs.rpsgym.rps.RPSWeightedAgent.update"]]}})
\ No newline at end of file
diff --git a/src/pantheonrl/algos/__init__.py b/src/pantheonrl/algos/__init__.py
index e69de29..f7e1974 100644
--- a/src/pantheonrl/algos/__init__.py
+++ b/src/pantheonrl/algos/__init__.py
@@ -0,0 +1,3 @@
+"""
+Collection of algorithms in PantheonRL.
+"""
diff --git a/src/pantheonrl/algos/adap/__init__.py b/src/pantheonrl/algos/adap/__init__.py
index e69de29..e366798 100644
--- a/src/pantheonrl/algos/adap/__init__.py
+++ b/src/pantheonrl/algos/adap/__init__.py
@@ -0,0 +1,5 @@
+"""
+Implementation of the ADAP algorithm (Derek 2021).
+
+Paper: https://arxiv.org/abs/2107.07506
+"""
diff --git a/src/pantheonrl/algos/adap/adap_learn.py b/src/pantheonrl/algos/adap/adap_learn.py
index 97cca80..6e647f7 100644
--- a/src/pantheonrl/algos/adap/adap_learn.py
+++ b/src/pantheonrl/algos/adap/adap_learn.py
@@ -31,61 +31,6 @@ class ADAP(OnPolicyAlgorithm):
     ADAP
 
     Borrows from Proximal Policy Optimization algorithm (PPO) (clip version)
-    Paper: https://arxiv.org/abs/1707.06347
-    Code: This implementation borrows code from OpenAI Spinning Up
-    (https://github.com/openai/spinningup/)
-    https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail and
-    and Stable Baselines (PPO2 from https://github.com/hill-a/stable-baselines)
-    Introduction to PPO:
-    https://spinningup.openai.com/en/latest/algorithms/ppo.html
-    :param policy: The policy model to use (MlpPolicy, CnnPolicy, ...)
-    :param env: The environment to learn from
-        (if registered in Gym, can be str)
-    :param learning_rate: The learning rate, it can be a function
-        of the current progress remaining (from 1 to 0)
-    :param n_steps: The number of steps to run for each environment per update
-        (i.e. rollout buffer size is n_steps * n_envs where n_envs is number of
-        environment copies running in parallel)
-        NOTE: n_steps * n_envs must be greater than 1 (because of the advantage
-        normalization) See https://github.com/pytorch/pytorch/issues/29372
-    :param batch_size: Minibatch size
-    :param n_epochs: Number of epoch when optimizing the surrogate loss
-    :param gamma: Discount factor
-    :param gae_lambda: Factor for trade-off of bias vs variance for Generalized
-        Advantage Estimator
-    :param clip_range: Clipping parameter, it can be a function of the current
-        progress remaining (from 1 to 0).
-    :param clip_range_vf: Clipping parameter for the value function,
-        it can be a function of the current progress remaining (from 1 to 0).
-        This is a parameter specific to the OpenAI implementation. If None is
-        passed (default), no clipping will be done on the value function.
-        IMPORTANT: this clipping depends on the reward scaling.
-    :param ent_coef: Entropy coefficient for the loss calculation
-    :param vf_coef: Value function coefficient for the loss calculation
-    :param max_grad_norm: The maximum value for the gradient clipping
-    :param use_sde: Whether to use generalized State Dependent Exploration
-        (gSDE) instead of action noise exploration (default: False)
-    :param sde_sample_freq: Sample a new noise matrix every n steps when using
-        gSDE
-        Default: -1 (only sample at the beginning of the rollout)
-    :param target_kl: Limit the KL divergence between updates,
-        because the clipping is not enough to prevent large update
-        see issue #213
-        (cf https://github.com/hill-a/stable-baselines/issues/213)
-        By default, there is no limit on the kl div.
-    :param tensorboard_log: the log location for tensorboard
-        (if None, no logging)
-    :param create_eval_env: Whether to create a second environment that will be
-        used for evaluating the agent periodically. (Only available when
-        passing string for the environment)
-    :param policy_kwargs: additional arguments to be passed to the policy on
-        creation
-    :param verbose: the verbosity level: 0 no output, 1 info, 2 debug
-    :param seed: Seed for the pseudo random generators
-    :param device: Device (cpu, cuda, ...) on which the code should be run.
-        Setting it to auto, the code will be run on the GPU if possible.
-    :param _init_setup_model: Whether or not to build the network at the
-        creation of the instance
     """
 
     def __init__(
@@ -107,12 +52,14 @@ def __init__(
         use_sde: bool = False,
         sde_sample_freq: int = -1,
         target_kl: Optional[float] = None,
+        stats_window_size: int = 100,
         tensorboard_log: Optional[str] = None,
         policy_kwargs: Optional[Dict[str, Any]] = None,
         verbose: int = 0,
         seed: Optional[int] = None,
         device: Union[torch.device, str] = "auto",
         _init_setup_model: bool = True,
+        # New ADAP
         context_loss_coeff: float = 0.1,
         context_size: int = 3,
         num_context_samples: int = 5,
@@ -134,6 +81,7 @@ def __init__(
             max_grad_norm=max_grad_norm,
             use_sde=use_sde,
             sde_sample_freq=sde_sample_freq,
+            stats_window_size=stats_window_size,
             tensorboard_log=tensorboard_log,
             policy_kwargs=policy_kwargs,
             verbose=verbose,
@@ -167,33 +115,33 @@ def __init__(
             buffer_size = self.env.num_envs * self.n_steps
             assert buffer_size > 1 or (
                 not normalize_advantage
-            ), f"`n_steps * n_envs` must be greater than 1. Currently \
-            n_steps={self.n_steps} and n_envs={self.env.num_envs}"
+            ), f"`n_steps * n_envs` must be greater than 1. \
+            Currently n_steps={self.n_steps} and n_envs={self.env.num_envs}"
+            # Check that the rollout buffer size is
+            # a multiple of the mini-batch size
             if buffer_size % batch_size > 0:
                 warnings.warn(
                     f"You have specified a mini-batch size of {batch_size},"
                     f" but the `RolloutBuffer` is of size \
-                    `n_steps * n_envs = {buffer_size}`,"
+                    `n_steps * n_envs = {buffer_size}`."
                 )
         self.batch_size = batch_size
         self.n_epochs = n_epochs
-        self.clip_range_raw = clip_range
-        self.clip_range_vf_raw = clip_range_vf
+        self.clip_range = clip_range
+        self.clip_range_vf = clip_range_vf
         self.normalize_advantage = normalize_advantage
         self.target_kl = target_kl
 
         self.context_loss_coeff = context_loss_coeff
-
         self.num_state_samples = num_state_samples
         self.num_context_samples = num_context_samples
         self.context_sampler = context_sampler
         self.context_size = context_size
+        self.full_obs_shape = None
 
         if _init_setup_model:
             self._setup_model()
 
-        self.full_obs_shape = None
-
     def set_env(self, env, force_reset=True):
         """Set the env to use"""
         super().set_env(env, force_reset=force_reset)
@@ -209,21 +157,176 @@ def _setup_model(self) -> None:
         sampled_context = SAMPLERS[self.context_sampler](
             ctx_size=self.context_size, num=1, use_torch=True
         )
-
         self.policy.set_context(sampled_context)
 
         # Initialize schedules for policy/value clipping
-        self.clip_range = get_schedule_fn(self.clip_range_raw)
-        if self.clip_range_vf_raw is not None:
-            if isinstance(self.clip_range_vf_raw, (float, int)):
-                assert self.clip_range_vf_raw > 0, (
+        self.clip_range = get_schedule_fn(self.clip_range)
+        if self.clip_range_vf is not None:
+            if isinstance(self.clip_range_vf, (float, int)):
+                assert self.clip_range_vf > 0, (
                     "`clip_range_vf` must be positive, "
                     "pass `None` to deactivate vf clipping"
                 )
 
-            self.clip_range_vf = get_schedule_fn(self.clip_range_vf_raw)
-        else:
-            self.clip_range_vf = self.clip_range_vf_raw
+            self.clip_range_vf = get_schedule_fn(self.clip_range_vf)
+
+    def collect_rollouts(
+        self,
+        env: VecEnv,
+        callback: BaseCallback,
+        rollout_buffer: RolloutBuffer,
+        n_rollout_steps: int,
+    ) -> bool:
+        """
+        Collect rollouts using the current policy and fill a `RolloutBuffer`.
+        The term rollout here refers to the model-free notion and should not
+        be used with the concept of rollout used in model-based RL or planning.
+
+        :param env: The training environment
+        :param callback: Callback that will be called at each step
+            (and at the beginning and end of the rollout)
+        :param rollout_buffer: Buffer to fill with rollouts
+        :param n_rollout_steps: Number of experiences to collect per env
+        :return: True if function returned with at least `n_rollout_steps`
+            collected, False if callback terminated rollout prematurely.
+        """
+        assert (
+            self._last_obs is not None
+        ), "No previous observation was provided"
+        # Switch to eval mode (this affects batch norm / dropout)
+        self.policy.set_training_mode(False)
+
+        n_steps = 0
+
+        # ADAP ADDITION
+        if self.full_obs_shape is None:
+            self.full_obs_shape = (
+                rollout_buffer.obs_shape[0] + self.context_size,
+            )
+
+        rollout_buffer.obs_shape = tuple(self.full_obs_shape)
+        # ADAP END
+
+        rollout_buffer.reset()
+        # Sample new weights for the state dependent exploration
+        if self.use_sde:
+            self.policy.reset_noise(env.num_envs)
+
+        callback.on_rollout_start()
+
+        while n_steps < n_rollout_steps:
+            if (
+                self.use_sde
+                and self.sde_sample_freq > 0
+                and n_steps % self.sde_sample_freq == 0
+            ):
+                # Sample a new noise matrix
+                self.policy.reset_noise(env.num_envs)
+
+            with torch.no_grad():
+                # Convert to pytorch tensor or to TensorDict
+                obs_tensor = torch.cat(
+                    (
+                        obs_as_tensor(self._last_obs, self.device).reshape(
+                            (1, -1)
+                        ),
+                        self.policy.get_context(),
+                    ),
+                    dim=1,
+                )
+                actions, values, log_probs = self.policy(obs_tensor)
+            actions = actions.cpu().numpy()
+
+            # Rescale and perform action
+            clipped_actions = actions
+
+            if isinstance(self.action_space, spaces.Box):
+                if self.policy.squash_output:
+                    # Unscale the actions to match env bounds
+                    # if they were previously squashed (scaled in [-1, 1])
+                    clipped_actions = self.policy.unscale_action(
+                        clipped_actions
+                    )
+                else:
+                    # Otherwise, clip the actions to avoid out of bound error
+                    # as we are sampling from an unbounded Gaussian
+                    clipped_actions = np.clip(
+                        actions, self.action_space.low, self.action_space.high
+                    )
+
+            new_obs, rewards, dones, infos = env.step(clipped_actions)
+
+            self.num_timesteps += env.num_envs
+
+            # Give access to local variables
+            callback.update_locals(locals())
+            if not callback.on_step():
+                return False
+
+            self._update_info_buffer(infos)
+            n_steps += 1
+
+            if isinstance(self.action_space, spaces.Discrete):
+                # Reshape in case of discrete action
+                actions = actions.reshape(-1, 1)
+
+            # Handle timeout by bootstraping with value function
+            # see GitHub issue #633
+            for idx, done in enumerate(dones):
+                if (
+                    done
+                    and infos[idx].get("terminal_observation") is not None
+                    and infos[idx].get("TimeLimit.truncated", False)
+                ):
+                    terminal_obs = self.policy.obs_to_tensor(
+                        infos[idx]["terminal_observation"]
+                    )[0].reshape((1, -1))
+                    terminal_obs = torch.cat(
+                        (terminal_obs, self.policy.get_context()), dim=1
+                    )
+                    with torch.no_grad():
+                        terminal_value = self.policy.predict_values(
+                            terminal_obs
+                        )[0]
+                    rewards[idx] += self.gamma * terminal_value
+
+            rollout_buffer.add(
+                np.concatenate(
+                    (self._last_obs, self.policy.get_context()), axis=None
+                ),
+                # self._last_obs,  # type: ignore[arg-type]
+                actions,
+                rewards,
+                self._last_episode_starts,  # type: ignore[arg-type]
+                values,
+                log_probs,
+            )
+            self._last_obs = new_obs  # type: ignore[assignment]
+            self._last_episode_starts = dones
+
+            # ADAP CHANGE: resample context
+            if dones[0]:
+                sampled_context = SAMPLERS[self.context_sampler](
+                    ctx_size=self.context_size, num=1, use_torch=True
+                )
+                self.policy.set_context(sampled_context)
+
+        with torch.no_grad():
+            # Compute value for the last timestep
+            values = self.policy.predict_values(torch.cat((
+                obs_as_tensor(self._last_obs, self.device).reshape((1, -1)),
+                self.policy.get_context()), dim=1)
+            )
+
+        rollout_buffer.compute_returns_and_advantage(
+            last_values=values, dones=dones
+        )
+
+        callback.update_locals(locals())
+
+        callback.on_rollout_end()
+
+        return True
 
     def train(self) -> None:
         """
@@ -273,7 +376,7 @@ def train(self) -> None:
                         advantages.std() + 1e-8
                     )
 
-                # ratio between old and new policy, should be one at the first
+                # ratio between old and new policy
                 ratio = torch.exp(log_prob - rollout_data.old_log_prob)
 
                 # clipped surrogate loss
@@ -314,12 +417,11 @@ def train(self) -> None:
 
                 entropy_losses.append(entropy_loss.item())
 
-                # Context loss for ADAP algorithm
+                # Context loss for ADAP
                 context_loss = get_context_kl_loss(
                     self, self.policy, rollout_data
                 )
-
-                context_kl_divs.append(context_loss.detach().numpy())
+                context_kl_divs.append(context_loss.item())
 
                 loss = (
                     policy_loss
@@ -387,154 +489,6 @@ def train(self) -> None:
         if self.clip_range_vf is not None:
             self.logger.record("train/clip_range_vf", clip_range_vf)
 
-    def collect_rollouts(
-        self,
-        env: VecEnv,
-        callback: BaseCallback,
-        rollout_buffer: RolloutBuffer,
-        n_rollout_steps: int,
-    ) -> bool:
-        """
-        Collect experiences using the current policy and fill a
-        ``RolloutBuffer``.
-
-        The term rollout here refers to the model-free notion and should not
-        be used with the concept of rollout used in model-based RL or planning.
-
-        :param env: The training environment
-        :param callback: Callback that will be called at each step
-            (and at the beginning and end of the rollout)
-        :param rollout_buffer: Buffer to fill with rollouts
-        :param n_rollout_steps: Number of steps to collect per environment
-        :return: True if function returned with at least `n_rollout_steps`
-            collected, False if callback terminated rollout prematurely.
-        """
-        assert (
-            self._last_obs is not None
-        ), "No previous observation was provided"
-        # Switch to eval mode (this affects batch norm / dropout)
-        self.policy.set_training_mode(False)
-
-        n_steps = 0
-
-        # ADAP ADDITION
-        if self.full_obs_shape is None:
-            self.full_obs_shape = (
-                rollout_buffer.obs_shape[0] + self.context_size,
-            )
-
-        rollout_buffer.obs_shape = tuple(self.full_obs_shape)
-        # ADAP END
-
-        rollout_buffer.reset()
-        # Sample new weights for the state dependent exploration
-        if self.use_sde:
-            self.policy.reset_noise(env.num_envs)
-
-        callback.on_rollout_start()
-
-        while n_steps < n_rollout_steps:
-            if (
-                self.use_sde
-                and self.sde_sample_freq > 0
-                and n_steps % self.sde_sample_freq == 0
-            ):
-                # Sample a new noise matrix
-                self.policy.reset_noise(env.num_envs)
-
-            with torch.no_grad():
-                # Convert to pytorch tensor or to TensorDict
-                obs_tensor = obs_as_tensor(self._last_obs, self.device)
-                actions, values, log_probs = self.policy(obs_tensor)
-            actions = actions.cpu().numpy()
-
-            # Rescale and perform action
-            clipped_actions = actions
-
-            if isinstance(self.action_space, spaces.Box):
-                if self.policy.squash_output:
-                    # Unscale the actions to match env bounds
-                    # if they were previously squashed (scaled in [-1, 1])
-                    clipped_actions = self.policy.unscale_action(
-                        clipped_actions
-                    )
-                else:
-                    # Otherwise, clip the actions to avoid out of bound error
-                    # as we are sampling from an unbounded Gaussian distribution
-                    clipped_actions = np.clip(
-                        actions, self.action_space.low, self.action_space.high
-                    )
-
-            new_obs, rewards, dones, infos = env.step(clipped_actions)
-
-            self.num_timesteps += env.num_envs
-
-            # Give access to local variables
-            callback.update_locals(locals())
-            if callback.on_step() is False:
-                return False
-
-            self._update_info_buffer(infos)
-            n_steps += 1
-
-            if isinstance(self.action_space, spaces.Discrete):
-                # Reshape in case of discrete action
-                actions = actions.reshape(-1, 1)
-
-            # Handle timeout by bootstraping with value function
-            # see GitHub issue #633
-            for idx, done in enumerate(dones):
-                if (
-                    done
-                    and infos[idx].get("terminal_observation") is not None
-                    and infos[idx].get("TimeLimit.truncated", False)
-                ):
-                    terminal_obs = self.policy.obs_to_tensor(
-                        infos[idx]["terminal_observation"]
-                    )[0]
-                    with torch.no_grad():
-                        terminal_value = self.policy.predict_values(
-                            terminal_obs
-                        )[0]
-                    rewards[idx] += self.gamma * terminal_value
-
-            rollout_buffer.add(
-                np.concatenate(
-                    (self._last_obs, self.policy.get_context()), axis=None
-                ),
-                # self._last_obs,  # type: ignore[arg-type]
-                actions,
-                rewards,
-                self._last_episode_starts,  # type: ignore[arg-type]
-                values,
-                log_probs,
-            )
-            self._last_obs = new_obs  # type: ignore[assignment]
-            self._last_episode_starts = dones
-
-            # ADAP CHANGE: resample context
-            if dones[0]:
-                sampled_context = SAMPLERS[self.context_sampler](
-                    ctx_size=self.context_size, num=1, use_torch=True
-                )
-                self.policy.set_context(sampled_context)
-
-        with torch.no_grad():
-            # Compute value for the last timestep
-            _, values, _ = self.policy.forward(
-                obs_as_tensor(new_obs, self.device)
-            )
-
-        rollout_buffer.compute_returns_and_advantage(
-            last_values=values, dones=dones
-        )
-
-        callback.update_locals(locals())
-
-        callback.on_rollout_end()
-
-        return True
-
     def learn(
         self,
         total_timesteps: int,
diff --git a/src/pantheonrl/algos/adap/agent.py b/src/pantheonrl/algos/adap/agent.py
index 55b100e..c959437 100644
--- a/src/pantheonrl/algos/adap/agent.py
+++ b/src/pantheonrl/algos/adap/agent.py
@@ -3,26 +3,11 @@
 """
 from typing import Optional
 
-import time
-
-import copy
-import sys
-
-import torch
-
-from gymnasium import spaces
-
 import numpy as np
 
 from pantheonrl.common.agents import OnPolicyAgent
 from pantheonrl.common.observation import Observation
 
-from stable_baselines3.common.utils import (
-    safe_mean,
-    obs_as_tensor,
-)
-
-
 from .adap_learn import ADAP
 from .util import SAMPLERS
 from .policies import AdapPolicy
@@ -57,6 +42,13 @@ def __init__(
 
         self.latent_syncer = latent_syncer
 
+        buf = self.model.rollout_buffer
+        self.model.full_obs_shape = (
+            buf.obs_shape[0] + self.model.context_size,
+        )
+        buf.obs_shape = self.model.full_obs_shape
+        buf.reset()
+
     def get_action(self, obs: Observation) -> np.ndarray:
         """
         Return an action given an observation.
@@ -67,155 +59,17 @@ def get_action(self, obs: Observation) -> np.ndarray:
         :param obs: The observation to use
         :returns: The action to take
         """
-        obs = obs.obs
-        if not isinstance(obs, np.ndarray):
-            obs = np.array([obs])
-        callback = self.callback
-        rollout_buffer = self.model.rollout_buffer
-        if self.model.full_obs_shape is None:
-            self.model.full_obs_shape = (
-                rollout_buffer.obs_shape[0] + self.model.context_size,
-            )
-
-            rollout_buffer.obs_shape = tuple(self.model.full_obs_shape)
-            rollout_buffer.reset()
-
-        n_rollout_steps = self.model.n_steps
-
-        if self.model.num_timesteps >= self.total_timesteps:
-            self.callback.on_training_end()
-            self.iteration = 0
-            self.total_timesteps, self.callback = self.model._setup_learn(
-                self.working_timesteps,
-                self.original_callback,
-                False,
-                self.tb_log_name,
-                False,
-            )
-
-            self.callback.on_training_start(locals(), globals())
-
-        if self.n_steps >= n_rollout_steps:
-            with torch.no_grad():
-                values = self.model.policy.predict_values(
-                    obs_as_tensor(obs, self.model.device).unsqueeze(0)
-                )
-            rollout_buffer.compute_returns_and_advantage(
-                last_values=values, dones=self.model._last_episode_starts
-            )
-            self.old_buffer = copy.deepcopy(rollout_buffer)
-            callback.update_locals(locals())
-            callback.on_rollout_end()
-
-            self.iteration += 1
-            self.model._update_current_progress_remaining(
-                self.model.num_timesteps, self.working_timesteps
+        if self.latent_syncer is not None:
+            self.model.policy.set_context(
+                self.latent_syncer.policy.get_context()
             )
-
-            if (
-                self.log_interval is not None
-                and self.iteration % self.log_interval == 0
-            ):
-                assert self.model.ep_info_buffer is not None
-                time_elapsed = max(
-                    (time.time_ns() - self.model.start_time) / 1e9,
-                    sys.float_info.epsilon,
-                )
-                fps = int(
-                    (
-                        self.model.num_timesteps
-                        - self.model._num_timesteps_at_start
-                    )
-                    / time_elapsed
-                )
-                self.model.logger.record(
-                    "time/iterations", self.iteration, exclude="tensorboard"
-                )
-                if (
-                    len(self.model.ep_info_buffer) > 0
-                    and len(self.model.ep_info_buffer[0]) > 0
-                ):
-                    self.model.logger.record(
-                        "rollout/ep_rew_mean",
-                        safe_mean(
-                            [
-                                ep_info["r"]
-                                for ep_info in self.model.ep_info_buffer
-                            ]
-                        ),
-                    )
-                    self.model.logger.record(
-                        "rollout/ep_len_mean",
-                        safe_mean(
-                            [
-                                ep_info["l"]
-                                for ep_info in self.model.ep_info_buffer
-                            ]
-                        ),
-                    )
-                self.model.logger.record("time/fps", fps)
-                self.model.logger.record(
-                    "time/time_elapsed",
-                    int(time_elapsed),
-                    exclude="tensorboard",
-                )
-                self.model.logger.record(
-                    "time/total_timesteps",
-                    self.model.num_timesteps,
-                    exclude="tensorboard",
-                )
-                self.model.logger.dump(step=self.model.num_timesteps)
-            self.model.train()
-
-            # Restarting
-            self.model.policy.set_training_mode(False)
-            self.n_steps = 0
-            rollout_buffer.reset()
-            if self.model.use_sde:
-                self.model.policy.reset_noise(1)
-            self.callback.on_rollout_start()
-
-        if (
-            self.model.use_sde
-            and self.model.sde_sample_freq > 0
-            and self.n_steps % self.model.sde_sample_freq == 0
-        ):
-            self.model.policy.reset_noise(1)
-
-        with torch.no_grad():
-            obs_tensor = obs_as_tensor(obs, self.model.device)
-            actions, values, log_probs = self.model.policy(
-                obs_tensor.unsqueeze(0)
-            )
-        actions = actions.cpu().numpy()
-        clipped_actions = actions
-
-        if isinstance(self.model.action_space, spaces.Box):
-            clipped_actions = np.clip(
-                actions,
-                self.model.action_space.low,
-                self.model.action_space.high,
-            )
-
-        self.in_progress_info["l"] += 1
-        self.model.num_timesteps += 1
-        self.n_steps += 1
-        if isinstance(self.model.action_space, spaces.Discrete):
-            actions = actions.reshape(-1, 1)
-        print(obs.shape)
-        obs = np.concatenate((np.reshape(obs, (1, -1)),
-                              self.model.policy.get_context()),
-                             axis=1)
-
-        rollout_buffer.add(
-            obs,
-            actions,
-            [0],
-            self.model._last_episode_starts,
-            values,
-            log_probs,
+        if not isinstance(obs.obs, np.ndarray):
+            obs.obs = np.array([obs.obs])
+        obs.obs = np.concatenate(
+            (np.reshape(obs.obs, (1, -1)), self.model.policy.get_context()),
+            axis=1,
         )
-        return clipped_actions[0]
+        return super().get_action(obs)
 
     def update(self, reward: float, done: bool) -> None:
         super().update(reward, done)
diff --git a/src/pantheonrl/algos/adap/policies.py b/src/pantheonrl/algos/adap/policies.py
index 210be1e..df461ef 100644
--- a/src/pantheonrl/algos/adap/policies.py
+++ b/src/pantheonrl/algos/adap/policies.py
@@ -4,17 +4,13 @@
 # pylint: disable=locally-disabled, not-callable
 
 from typing import Any, Dict, Optional, Type, Union, List, Tuple
-from itertools import zip_longest
 
 import torch
 import gymnasium as gym
 from torch import nn
 
-from torch.optim.optimizer import Optimizer
-from torch.optim.adam import Adam
-
 from stable_baselines3.common.utils import get_device
-from stable_baselines3.common.policies import ActorCriticPolicy
+from stable_baselines3.common.policies import ActorCriticPolicy, BasePolicy
 from stable_baselines3.common.type_aliases import Schedule
 from stable_baselines3.common.torch_layers import (
     BaseFeaturesExtractor,
@@ -33,21 +29,21 @@ def __init__(
         observation_space: gym.spaces.Space,
         action_space: gym.spaces.Space,
         lr_schedule: Schedule,
-        net_arch: Optional[List[Union[int, Dict[str, List[int]]]]] = None,
+        net_arch: Optional[Union[List[int], Dict[str, List[int]]]] = None,
         activation_fn: Type[nn.Module] = nn.Tanh,
         ortho_init: bool = True,
         use_sde: bool = False,
         log_std_init: float = 0.0,
         full_std: bool = True,
-        sde_net_arch: Optional[List[int]] = None,
         use_expln: bool = False,
         squash_output: bool = False,
         features_extractor_class: Type[
             BaseFeaturesExtractor
         ] = FlattenExtractor,
         features_extractor_kwargs: Optional[Dict[str, Any]] = None,
+        share_features_extractor: bool = True,
         normalize_images: bool = True,
-        optimizer_class: Type[Optimizer] = Adam,
+        optimizer_class: Type[torch.optim.Optimizer] = torch.optim.Adam,
         optimizer_kwargs: Optional[Dict[str, Any]] = None,
         context_size: int = 3,
     ):
@@ -64,23 +60,22 @@ def __init__(
             use_sde=use_sde,
             log_std_init=log_std_init,
             full_std=full_std,
-            # sde_net_arch=sde_net_arch,
             use_expln=use_expln,
             squash_output=squash_output,
             features_extractor_class=features_extractor_class,
             features_extractor_kwargs=features_extractor_kwargs,
+            share_features_extractor=share_features_extractor,
             normalize_images=normalize_images,
             optimizer_class=optimizer_class,
             optimizer_kwargs=optimizer_kwargs,
-            share_features_extractor=True
         )
 
     def set_context(self, ctxt):
-        """ Set the context """
+        """Set the context"""
         self.context = ctxt
 
     def get_context(self):
-        """ Get the current context """
+        """Get the current context"""
         return self.context
 
     def _build_mlp_extractor(self) -> None:
@@ -115,126 +110,147 @@ def _get_latent(
         )
         latent_pi, latent_vf = self.mlp_extractor(features)
 
-        # Features for sde
-        latent_sde = latent_pi
-        if self.sde_features_extractor is not None:
-            latent_sde = self.sde_features_extractor(features)
-        return latent_pi, latent_vf, latent_sde
-
-    # def forward(self, obs: torch.Tensor, deterministic: bool = False):
-    #     # Preprocess the observation if needed
-    #     features = self.extract_features(obs)
-    #     features = torch.cat((features, obs[:, -self.context_size :]), dim=1).float()
-    #     latent_pi, latent_vf = self.mlp_extractor(features)
-    #     # Evaluate the values for the given observations
-    #     values = self.value_net(latent_vf)
-    #     distribution = self._get_action_dist_from_latent(latent_pi)
-    #     actions = distribution.get_actions(deterministic=deterministic)
-    #     log_prob = distribution.log_prob(actions)
-    #     actions = actions.reshape((-1, *self.action_space.shape))
-    #     return actions, values, log_prob
+        return latent_pi, latent_vf
+
+    def forward(
+        self, obs: torch.Tensor, deterministic: bool = False
+    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        """
+        Forward pass in all the networks (actor and critic)
+
+        :param obs: Observation
+        :param deterministic: Whether to sample or use deterministic actions
+        :return: action, value and log probability of the action
+        """
+        # Preprocess the observation if needed
+        latents = obs[..., -self.context_size :].reshape(
+            -1, self.context_size
+        )[0]
+        obs = obs[..., : -self.context_size].reshape(
+            -1, obs.size(dim=-1) - self.context_size
+        )
+        features = self.extract_features(obs)
+        latents = latents.to(features.device, features.dtype)
+        features = torch.cat(
+            (features, latents.repeat(features.size()[0], 1)), dim=1
+        )
+        if self.share_features_extractor:
+            latent_pi, latent_vf = self.mlp_extractor(features)
+        else:
+            pi_features, vf_features = features
+            latent_pi = self.mlp_extractor.forward_actor(pi_features)
+            latent_vf = self.mlp_extractor.forward_critic(vf_features)
+        # Evaluate the values for the given observations
+        values = self.value_net(latent_vf)
+        distribution = self._get_action_dist_from_latent(latent_pi)
+        actions = distribution.get_actions(deterministic=deterministic)
+        log_prob = distribution.log_prob(actions)
+        actions = actions.reshape((-1, *self.action_space.shape))
+        return actions, values, log_prob
+
+    def predict_values(self, obs: torch.Tensor) -> torch.Tensor:
+        """
+        Get the estimated values according to the current policy given the observations.
+
+        :param obs: Observation
+        :return: the estimated values.
+        """
+        latents = obs[..., -self.context_size :].reshape(
+            -1, self.context_size
+        )[0]
+        obs = obs[..., : -self.context_size].reshape(
+            -1, obs.size(dim=-1) - self.context_size
+        )
+        features = super(BasePolicy, self).extract_features(
+            obs, self.vf_features_extractor
+        )
+        latents = latents.to(features.device, features.dtype)
+        features = torch.cat(
+            (features, latents.repeat(features.size()[0], 1)), dim=1
+        )
+        latent_vf = self.mlp_extractor.forward_critic(features)
+        return self.value_net(latent_vf)
 
     def evaluate_actions(
         self, obs: torch.Tensor, actions: torch.Tensor
-    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    ) -> Tuple[torch.Tensor, torch.Tensor, Optional[torch.Tensor]]:
         """
         Evaluate actions according to the current policy,
         given the observations.
-        :param obs:
-        :param actions:
+
+        :param obs: Observation
+        :param actions: Actions
         :return: estimated value, log likelihood of taking those actions
             and entropy of the action distribution.
         """
-        features = self.extract_features(obs[:, : -self.context_size])
-        features = torch.cat((features, obs[:, -self.context_size :]), dim=1)
-        latent_pi, latent_vf = self.mlp_extractor(features)
-
-        # Features for sde
-        latent_sde = latent_pi
-        if self.sde_features_extractor is not None:
-            latent_sde = self.sde_features_extractor(features)
-        distribution = self._get_action_dist_from_latent(latent_pi, latent_sde)
+        # Preprocess the observation if needed
+        latents = obs[..., -self.context_size :].reshape(
+            -1, self.context_size
+        )[0]
+        obs = obs[..., : -self.context_size].reshape(
+            -1, obs.size(dim=-1) - self.context_size
+        )
+        print("NEW OBS", obs)
+        features = self.extract_features(obs)
+        latents = latents.to(features.device, features.dtype)
+        print(features.shape, latents.shape)
+        features = torch.cat(
+            (features, latents.repeat(features.size()[0], 1)), dim=1
+        )
+        print(features.shape)
+        if self.share_features_extractor:
+            latent_pi, latent_vf = self.mlp_extractor(features)
+        else:
+            pi_features, vf_features = features
+            latent_pi = self.mlp_extractor.forward_actor(pi_features)
+            latent_vf = self.mlp_extractor.forward_critic(vf_features)
+        distribution = self._get_action_dist_from_latent(latent_pi)
         log_prob = distribution.log_prob(actions)
         values = self.value_net(latent_vf)
-        return values, log_prob, distribution.entropy()
+        entropy = distribution.entropy()
+        return values, log_prob, entropy
 
 
 class MultModel(nn.Module):
-    """ Neural Network representing multiplicative layers """
+    """Neural Network representing multiplicative layers"""
 
     def __init__(
         self, feature_dim, net_arch, activation_fn, device, context_size
     ):
         super().__init__()
-
-        self.obs_space_size = feature_dim + context_size
         self.context_size = context_size
-
         device = get_device(device)
-        shared_net, policy_net, value_net = [], [], []
-        # Layer sizes of the network that only belongs to the policy network
-        policy_only_layers = []
-        # Layer sizes of the network that only belongs to the value network
-        value_only_layers = []
-        last_layer_dim_shared = feature_dim
-
-        # Iterate through shared layers and build shared parts of the network
-        for layer in net_arch:
-            if isinstance(layer, int):  # Check that this is a shared layer
-                # add linear of size layer
-                shared_net.append(nn.Linear(last_layer_dim_shared, layer))
-                shared_net.append(activation_fn())
-                last_layer_dim_shared = layer
-            else:
-                assert isinstance(
-                    layer, dict
-                ), "Error: the net_arch list can only contain ints and dicts"
-                if "pi" in layer:
-                    assert isinstance(
-                        layer["pi"], list
-                    ), "Error: net_arch[-1]['pi'] must \
-                        contain a list of integers."
-                    policy_only_layers = layer["pi"]
-
-                if "vf" in layer:
-                    assert isinstance(
-                        layer["vf"], list
-                    ), "Error: net_arch[-1]['vf'] must \
-                        contain a list of integers."
-                    value_only_layers = layer["vf"]
-                break
-
-        last_layer_dim_pi = last_layer_dim_shared
-        last_layer_dim_vf = last_layer_dim_shared
-
-        # Build the non-shared part of the network
-        for pi_layer_size, vf_layer_size in zip_longest(
-            policy_only_layers, value_only_layers
-        ):
-            if pi_layer_size is not None:
-                assert isinstance(
-                    pi_layer_size, int
-                ), "Error: net_arch[-1]['pi'] must only contain integers."
-                policy_net.append(nn.Linear(last_layer_dim_pi, pi_layer_size))
-                policy_net.append(activation_fn())
-                last_layer_dim_pi = pi_layer_size
-
-            if vf_layer_size is not None:
-                assert isinstance(
-                    vf_layer_size, int
-                ), "Error: net_arch[-1]['vf'] must only contain integers."
-                value_net.append(nn.Linear(last_layer_dim_vf, vf_layer_size))
-                value_net.append(activation_fn())
-                last_layer_dim_vf = vf_layer_size
+        policy_net: List[nn.Module] = []
+        value_net: List[nn.Module] = []
+        last_layer_dim_pi = feature_dim
+        last_layer_dim_vf = feature_dim
+
+        # save dimensions of layers in policy and value nets
+        if isinstance(net_arch, dict):
+            # Note: if key is not specificed, assume linear network
+            pi_layers_dims = net_arch.get(
+                "pi", []
+            )  # Layer sizes of the policy network
+            vf_layers_dims = net_arch.get(
+                "vf", []
+            )  # Layer sizes of the value network
+        else:
+            pi_layers_dims = vf_layers_dims = net_arch
+        # Iterate through the policy layers and build the policy net
+        for curr_layer_dim in pi_layers_dims:
+            policy_net.append(nn.Linear(last_layer_dim_pi, curr_layer_dim))
+            policy_net.append(activation_fn())
+            last_layer_dim_pi = curr_layer_dim
+        # Iterate through the value layers and build the value net
+        for curr_layer_dim in vf_layers_dims:
+            value_net.append(nn.Linear(last_layer_dim_vf, curr_layer_dim))
+            value_net.append(activation_fn())
+            last_layer_dim_vf = curr_layer_dim
 
         # Save dim, used to create the distributions
         self.latent_dim_pi = last_layer_dim_pi
         self.latent_dim_vf = last_layer_dim_vf
 
-        # Create networks
-        # If list of layers is empty, the network is an Identity module
-        self.shared_net = nn.Sequential(*shared_net).to(device)
-
         self.hidden_dim1 = policy_net[0].out_features
         self.agent_branch_1 = nn.Sequential(*policy_net[0:2]).to(device)
         self.agent_scaling = nn.Sequential(
@@ -251,18 +267,10 @@ def __init__(
         ).to(device)
         self.value_branch_2 = nn.Sequential(*value_net[2:]).to(device)
 
-    def get_input_size_excluding_ctx(self):
-        """ Returns input size excluding the size of context """
-        return self.obs_space_size - self.context_size
-
-    def get_input_size_inluding_ctx(self):
-        """ Returns full input size  """
-        return self.obs_space_size
-
     def policies(
         self, observations: torch.Tensor, contexts: torch.Tensor
     ) -> torch.Tensor:
-        """ Returns the logits from the policy function """
+        """Returns the logits from the policy function"""
         batch_size = observations.shape[0]
         x = self.agent_branch_1(observations)
         x_a = self.agent_scaling(x)
@@ -276,7 +284,7 @@ def policies(
     def values(
         self, observations: torch.Tensor, contexts: torch.Tensor
     ) -> torch.Tensor:
-        """ Returns the response from the value function """
+        """Returns the response from the value function"""
         batch_size = observations.shape[0]
         x = self.value_branch_1(observations)
         x_a = self.value_scaling(x)
@@ -288,15 +296,31 @@ def values(
 
         return values
 
-    def forward(self, features: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
-        """ Returns the action logits and values """
-        features = self.shared_net(features)
+    def forward(
+        self, features: torch.Tensor
+    ) -> Tuple[torch.Tensor, torch.Tensor]:
+        """Returns the action logits and values"""
+        # features = self.shared_net(features)
         observations = features[:, : -self.context_size]
         contexts = features[:, -self.context_size :]
         return self.policies(observations, contexts), self.values(
             observations, contexts
         )
 
+    def forward_actor(self, features: torch.Tensor) -> torch.Tensor:
+        """Returns the action logits and values"""
+        # features = self.shared_net(features)
+        observations = features[:, : -self.context_size]
+        contexts = features[:, -self.context_size :]
+        return self.policies(observations, contexts)
+
+    def forward_critic(self, features: torch.Tensor) -> torch.Tensor:
+        """Returns the action logits and values"""
+        # features = self.shared_net(features)
+        observations = features[:, : -self.context_size]
+        contexts = features[:, -self.context_size :]
+        return self.values(observations, contexts)
+
 
 class AdapPolicyMult(AdapPolicy):
     """
diff --git a/src/pantheonrl/algos/adap/util.py b/src/pantheonrl/algos/adap/util.py
index 4dd2639..a74701c 100644
--- a/src/pantheonrl/algos/adap/util.py
+++ b/src/pantheonrl/algos/adap/util.py
@@ -50,7 +50,7 @@ def kl_divergence(
 
 
 def get_l2_sphere(ctx_size, num, use_torch=False):
-    """ Samples from l2 sphere """
+    """Samples from l2 sphere"""
     if use_torch:
         ctxs = torch.rand(num, ctx_size, device="cpu") * 2 - 1
         ctxs = ctxs / (((ctxs) ** 2).sum(dim=-1).reshape(num, 1)) ** (1 / 2)
@@ -62,7 +62,7 @@ def get_l2_sphere(ctx_size, num, use_torch=False):
 
 
 def get_unit_square(ctx_size, num, use_torch=False):
-    """ Samples from unit square centered at 0 """
+    """Samples from unit square centered at 0"""
     if use_torch:
         ctxs = torch.rand(num, ctx_size) * 2 - 1
     else:
@@ -71,7 +71,7 @@ def get_unit_square(ctx_size, num, use_torch=False):
 
 
 def get_positive_square(ctx_size, num, use_torch=False):
-    """ Samples from the square with axes between 0 and 1 """
+    """Samples from the square with axes between 0 and 1"""
     if use_torch:
         ctxs = torch.rand(num, ctx_size)
     else:
@@ -80,7 +80,7 @@ def get_positive_square(ctx_size, num, use_torch=False):
 
 
 def get_categorical(ctx_size, num, use_torch=False):
-    """ Samples from categorical distribution """
+    """Samples from categorical distribution"""
     if use_torch:
         ctxs = torch.zeros(num, ctx_size)
         ctxs[torch.arange(num), torch.randint(0, ctx_size, size=(num,))] = 1
@@ -113,7 +113,7 @@ def get_natural_number(ctx_size, num, use_torch=False):
 def get_context_kl_loss(
     policy: "ADAP", model: "AdapPolicy", train_batch: RolloutBufferSamples
 ):
-    """ Gets the KL loss for ADAP """
+    """Gets the KL loss for ADAP"""
 
     original_obs = train_batch.observations[:, : -policy.context_size]
 
@@ -138,10 +138,8 @@ def get_context_kl_loss(
 
         all_contexts.add(sampled_context)
         model.set_context(sampled_context)
-        latent_pi, _, latent_sde = model._get_latent(sampled_states)
-        context_action_dist = model._get_action_dist_from_latent(
-            latent_pi, latent_sde
-        )
+        latent_pi, _ = model._get_latent(sampled_states)
+        context_action_dist = model._get_action_dist_from_latent(latent_pi)
         all_action_dists.append(copy.copy(context_action_dist))
 
     model.set_context(old_context)
diff --git a/src/pantheonrl/algos/bc.py b/src/pantheonrl/algos/bc.py
index 674a1da..7a7681d 100644
--- a/src/pantheonrl/algos/bc.py
+++ b/src/pantheonrl/algos/bc.py
@@ -3,8 +3,7 @@
 Trains policy by applying supervised learning to a fixed dataset of
 (observation, action) pairs generated by some expert demonstrator.
 
-https://github.com/HumanCompatibleAI/imitation/blob/
-master/src/imitation/algorithms/bc.py
+https://github.com/HumanCompatibleAI/imitation/blob/master/src/imitation/algorithms/bc.py
 """
 
 import contextlib
diff --git a/src/pantheonrl/algos/modular/__init__.py b/src/pantheonrl/algos/modular/__init__.py
index e69de29..db8cd13 100644
--- a/src/pantheonrl/algos/modular/__init__.py
+++ b/src/pantheonrl/algos/modular/__init__.py
@@ -0,0 +1,5 @@
+"""
+Implementation of the Modular algorithm (Shih 2021).
+
+Paper: https://arxiv.org/abs/2104.02871
+"""
diff --git a/src/pantheonrl/common/__init__.py b/src/pantheonrl/common/__init__.py
index e69de29..f325958 100644
--- a/src/pantheonrl/common/__init__.py
+++ b/src/pantheonrl/common/__init__.py
@@ -0,0 +1,3 @@
+"""
+The core classes in PantheonRL.
+"""
diff --git a/src/pantheonrl/envs/blockworldgym/__init__.py b/src/pantheonrl/envs/blockworldgym/__init__.py
index e69de29..42d13f7 100644
--- a/src/pantheonrl/envs/blockworldgym/__init__.py
+++ b/src/pantheonrl/envs/blockworldgym/__init__.py
@@ -0,0 +1,5 @@
+"""
+Implementation of block world environments (McCarthy 2021)
+
+Paper: https://cogtoolslab.github.io/pdf/mccarthy_cogsci_2021b.pdf
+"""
diff --git a/src/pantheonrl/envs/liargym/__init__.py b/src/pantheonrl/envs/liargym/__init__.py
index e69de29..b065d38 100644
--- a/src/pantheonrl/envs/liargym/__init__.py
+++ b/src/pantheonrl/envs/liargym/__init__.py
@@ -0,0 +1,3 @@
+"""
+Implementation of the Liar's Dice game.
+"""
diff --git a/src/pantheonrl/envs/rpsgym/__init__.py b/src/pantheonrl/envs/rpsgym/__init__.py
index e69de29..d025fd9 100644
--- a/src/pantheonrl/envs/rpsgym/__init__.py
+++ b/src/pantheonrl/envs/rpsgym/__init__.py
@@ -0,0 +1,3 @@
+"""
+Implementation of the rock-paper-scissors game.
+"""
diff --git a/tests/README.org b/tests/README.org
index ac9719b..1187e70 100644
--- a/tests/README.org
+++ b/tests/README.org
@@ -21,3 +21,25 @@
 - [ ] Test wrappers
   - [ ] Trajectory saver
   - [ ] Frame stacking
+
+
+** Contribution Instructions
+
+First, install by git as specified in repo's README. Ensure you have a conda environment specific for testing.
+
+When making changes, ensure that tests still pass. From the home repo directory:
+#+begin_src bash
+  pytest tests
+#+end_src
+
+Follow our pylint guidelines. The code should be rated 10.0/10.0, but let us know if any of the rules are unnecessary:
+#+begin_src bash
+  pylint src
+#+end_src
+
+Finally, update the automatically generated website documentation:
+#+begin_src bash
+  cd docs_build
+  make clean
+  make html
+#+end_src
diff --git a/tests/test_adap.py b/tests/test_adap.py
index beadec6..db8e474 100644
--- a/tests/test_adap.py
+++ b/tests/test_adap.py
@@ -19,25 +19,47 @@ def make_env(option):
     elif option == 2:
         env = gym.make('LiarsDice-v0')
     env.np_random, _ = gym.utils.seeding.np_random(0)
-    return env
+    return env.unwrapped
 
 
 def run_standard(ALGO, timesteps, option, n_steps):
     env = make_env(option)
     ego = ALGO(AdapPolicy, env, n_steps=n_steps, verbose=0)
     env.unwrapped.ego_ind = 0
-    partner = AdapAgent(ALGO(AdapPolicy, env, n_steps=n_steps, verbose=0), latent_syncer=ego)
+    partner = AdapAgent(ALGO(AdapPolicy, env.unwrapped.get_dummy_env(1), n_steps=n_steps, verbose=0), latent_syncer=ego)
     env.unwrapped.add_partner_agent(partner)
 
     ego.learn(total_timesteps=timesteps)
 
+
+def run_mult(ALGO, timesteps, option, n_steps):
+    env = make_env(option)
+    ego = ALGO(AdapPolicyMult, env, n_steps=n_steps, verbose=0)
+    env.unwrapped.ego_ind = 0
+    partner = AdapAgent(ALGO(AdapPolicyMult, env.unwrapped.get_dummy_env(1), n_steps=n_steps, verbose=0), latent_syncer=ego)
+    env.unwrapped.add_partner_agent(partner)
+
+    ego.learn(total_timesteps=timesteps)
+
+
 @pytest.mark.timeout(60)
 @pytest.mark.filterwarnings("ignore::DeprecationWarning")
 @pytest.mark.filterwarnings("ignore::UserWarning")
 @pytest.mark.parametrize("ALGO", [ADAP])
 @pytest.mark.parametrize("epochs", [20])
-@pytest.mark.parametrize("option", [0])
+@pytest.mark.parametrize("option", [0, 1, 2])
 @pytest.mark.parametrize("n_steps", [40])
-def test_onpolicy(ALGO, epochs, option, n_steps):
+def test_adap_standard(ALGO, epochs, option, n_steps):
     run_standard(ALGO, n_steps * epochs, option, n_steps)
 
+
+@pytest.mark.timeout(60)
+@pytest.mark.filterwarnings("ignore::DeprecationWarning")
+@pytest.mark.filterwarnings("ignore::UserWarning")
+@pytest.mark.parametrize("ALGO", [ADAP])
+@pytest.mark.parametrize("epochs", [20])
+@pytest.mark.parametrize("option", [0, 1, 2])
+@pytest.mark.parametrize("n_steps", [40])
+def test_adap_mult(ALGO, epochs, option, n_steps):
+    run_mult(ALGO, n_steps * epochs, option, n_steps)
+