This repository has been archived by the owner on May 6, 2021. It is now read-only.

Add Bit Flipping Environment[WIP] #116

Merged

findmyway merged 2 commits into JuliaReinforcementLearning:master from sriram13m:master

Jan 1, 2021

Contributor

sriram13m commented Dec 31, 2020

Add Bit Flipping Environment inspired from Hindsight Experience Replay(https://arxiv.org/pdf/1707.01495.pdf)


          Add BitFlipping Environment

d73a499

Add BitFlipping Environment

sriram13m requested a review from findmyway

December 31, 2020 15:16

sriram13m marked this pull request as draft

December 31, 2020 15:23

findmyway reviewed

View reviewed changes

test/environments/examples/bit_flipping_env.jl Outdated

		@@ -0,0 +1,8 @@
		@testset "bit_flipping_env" begin

		env = BitFlippingEnv(; N = 7)

Member

findmyway Dec 31, 2020

Use an independent rng like

ReinforcementLearningEnvironments.jl/test/environments/examples/tiger_problem_env.jl

Lines 3 to 5 in ed9e04c

    
           rng = StableRNG(123) 
        
           obs_prob = 0.85 
        
           env = TigerProblemEnv(; rng = rng, obs_prob = obs_prob)

here to avoid GLOBAL_RNG being polluted.

src/environments/examples/BitFlippingEnv.jl Outdated

+              RLBase.DynamicStyle(::BitFlippingEnv) = SEQUENTIAL
+              RLBase.ActionStyle(::BitFlippingEnv) = MINIMAL_ACTION_SET
+              RLBase.InformationStyle(::BitFlippingEnv) = PERFECT_INFORMATION
+              RLBase.StateStyle(::BitFlippingEnv) = Observation{BitArray{1}}()

Member

findmyway Dec 31, 2020

Since you support two state styles in this environment. You can return it here.

Suggested change

      
            RLBase.StateStyle(::BitFlippingEnv) = Observation{BitArray{1}}()
          
            RLBase.StateStyle(::BitFlippingEnv) = (Observation{BitArray{1}}(), GoalState())

src/environments/examples/BitFlippingEnv.jl

+                  if env.state == env.goal_state
+.0
+                  else
+.0

Member

findmyway Dec 31, 2020

I think we should return -1 instead of 0. here based on the description in the original paper:

For every episode we sample uniformly an initial state as well as a target state and the policy gets areward of−1as long as it is not in the target state

src/environments/examples/BitFlippingEnv.jl Outdated

+              RLBase.ActionStyle(::BitFlippingEnv) = MINIMAL_ACTION_SET
+              RLBase.InformationStyle(::BitFlippingEnv) = PERFECT_INFORMATION
+              RLBase.StateStyle(::BitFlippingEnv) = Observation{BitArray{1}}()
+              RLBase.RewardStyle(::BitFlippingEnv) = TERMINAL_REWARD

Member

findmyway Dec 31, 2020

If we return a reward of -1 at each non-terminated step, then I think this environment is a STEP_REWARD env?

findmyway reviewed

View reviewed changes

src/environments/examples/BitFlippingEnv.jl Outdated

+              struct GoalState{T} <: RLBase.AbstractStateStyle end
+              GoalState() = GoalState{Any}()
+              mutable struct BitFlippingEnv <: AbstractEnv

Member

findmyway Dec 31, 2020

I think we can make this immutable

findmyway reviewed

View reviewed changes

src/environments/examples/BitFlippingEnv.jl Outdated

+              RLBase.is_terminated(env::BitFlippingEnv) = env.state == env.goal_state
+              function RLBase.reset!(env::BitFlippingEnv)
+                  env.state = bitrand(env.rng,env.N)

Member

findmyway Dec 31, 2020

Suggested change

      
                env.state = bitrand(env.rng,env.N)
          
                env.state .= bitrand(env.rng,env.N)

findmyway reviewed

View reviewed changes

src/environments/examples/BitFlippingEnv.jl Outdated

+              function RLBase.reset!(env::BitFlippingEnv)
+                  env.state = bitrand(env.rng,env.N)
+                  env.goal_state = bitrand(env.rng,env.N)

Member

findmyway Dec 31, 2020

Suggested change

      
                env.goal_state = bitrand(env.rng,env.N)
          
                env.goal_state .= bitrand(env.rng,env.N)


          Bug FIxes

1a3a0be

Bug FIxes

sriram13m marked this pull request as ready for review

December 31, 2020 16:58

sriram13m requested a review from findmyway

January 1, 2021 05:10

findmyway merged commit c481c06 into JuliaReinforcementLearning:master

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.

Labels

None yet