flow-project · eugenevinitsky · Mar 28, 2020 · Mar 28, 2020 · Mar 28, 2020 · Mar 28, 2020
@@ -48,7 +48,7 @@
         lc_pushy=0.8,
         lc_speed_gain=4.0,
         model="LC2013",
-        lane_change_mode="no_lat_collide",
+        lane_change_mode="no_lc_safe",
         # lcKeepRight=0.8
     ),
     num_vehicles=1400)

@@ -46,7 +46,7 @@
         model="LC2013",
         lcCooperative=0.2,
         lcSpeedGain=15,
-        lane_change_mode="no_lat_collide",
+        lane_change_mode="no_lc_safe",
     ),
     num_vehicles=50)
 

@@ -41,11 +41,9 @@
 
 if WANT_GHOST_CELL:
     from flow.networks.i210_subnetwork_ghost_cell import I210SubNetworkGhostCell, EDGES_DISTRIBUTION
-
     highway_start_edge = 'ghost0'
 else:
     from flow.networks.i210_subnetwork import I210SubNetwork, EDGES_DISTRIBUTION
-
     highway_start_edge = "119257914"
 
 vehicles = VehicleParams()
@@ -255,11 +253,6 @@ def valid_ids(env, veh_ids):
         env.k.vehicle.get_speed(valid_ids(env, env.k.vehicle.get_ids())))),
     "avg_outflow": lambda env: np.nan_to_num(
         env.k.vehicle.get_outflow_rate(120)),
-    # # we multiply by 5 to account for the vehicle length and by 1000 to convert
-    # # into veh/km
-    # "avg_density": lambda env: 5 * 1000 * len(env.k.vehicle.get_ids_by_edge(
-    #     edge_id)) / (env.k.network.edge_length(edge_id)
-    #                  * env.k.network.num_lanes(edge_id)),
     "mpg": lambda env: miles_per_gallon(env,  valid_ids(env, env.k.vehicle.get_ids()), gain=1.0),
     "mpj": lambda env: miles_per_megajoule(env, valid_ids(env, env.k.vehicle.get_ids()), gain=1.0),
 }
@@ -18,7 +18,7 @@
         speed_mode=1,
     ),
     lane_change_params=SumoLaneChangeParams(
-        lane_change_mode="no_lat_collide",
+        lane_change_mode="no_lc_safe",
     ),
     initial_speed=0,
     num_vehicles=90)

@@ -28,7 +28,7 @@
 # WANT_DOWNSTREAM_BOUNDARY = True
 ON_RAMP = False
 PENETRATION_RATE = 0.10
-V_DES = 7.0
+V_DES = 5.0
 HORIZON = 1000
 WARMUP_STEPS = 600
 
@@ -64,11 +64,11 @@
     "mpg_reward": False,
     # whether to use the MPJ reward. Otherwise, defaults to a target velocity reward
     "mpj_reward": False,
-    # how many vehicles to look back for the MPG reward
-    "look_back_length": 1,
+    # how many vehicles to look back for any reward
+    "look_back_length": 10,
     # whether to reroute vehicles once they have exited
-    "reroute_on_exit": True,
-    'target_velocity': 8.0,
+    "reroute_on_exit": False,
+    'target_velocity': 5.0,
     # how many AVs there can be at once (this is only for centralized critics)
     "max_num_agents": 10,
     # which edges we shouldn't apply control on
@@ -91,9 +91,10 @@
     "speed_reward_gain": 0.5,
     # penalize stopped vehicles
     "penalize_stops": True,
-
+    "stop_penalty": 0.05,
     # penalize accels
-    "penalize_accel": True
+    "penalize_accel": True,
+    "accel_penalty": 0.05
 })
 
 # CREATE VEHICLE TYPES AND INFLOWS
@@ -264,7 +265,7 @@
         sims_per_step=3,
         warmup_steps=WARMUP_STEPS,
         additional_params=additional_env_params,
-        done_at_exit=False
+        done_at_exit=not additional_env_params["reroute_on_exit"]
     ),
 
     # network-related parameters (see flow.core.params.NetParams and the

@@ -113,7 +113,6 @@ def run_model_stablebaseline(flow_params,
     """
     from stable_baselines.common.vec_env import DummyVecEnv, SubprocVecEnv
     from stable_baselines import PPO2
-
     if num_cpus == 1:
         constructor = env_constructor(params=flow_params, version=0)()
         # The algorithms require a vectorized environment to run
@@ -218,8 +217,8 @@ def setup_exps_rllib(flow_params,
             config["lr"] = tune.grid_search([5e-4, 5e-5])
 
     elif alg_run == "TD3":
-        agent_cls = get_agent_class(alg_run)
-        config = deepcopy(agent_cls._default_config)
+        alg_run = get_agent_class(alg_run)
+        config = deepcopy(alg_run._default_config)
 
         config["num_workers"] = n_cpus
         config["horizon"] = horizon
@@ -242,6 +241,9 @@ def on_episode_start(info):
         episode.user_data["avg_energy"] = []
         episode.user_data["avg_mpg"] = []
         episode.user_data["avg_mpj"] = []
+        episode.user_data["num_cars"] = []
+        episode.user_data["avg_accel_human"] = []
+        episode.user_data["avg_accel_avs"] = []
 
     def on_episode_step(info):
         episode = info["episode"]
@@ -271,6 +273,15 @@ def on_episode_step(info):
             episode.user_data["avg_speed_avs"].append(av_speed)
         episode.user_data["avg_mpg"].append(miles_per_gallon(env, veh_ids, gain=1.0))
         episode.user_data["avg_mpj"].append(miles_per_megajoule(env, veh_ids, gain=1.0))
+        episode.user_data["num_cars"].append(len(env.k.vehicle.get_ids()))
+        episode.user_data["avg_accel_human"].append(np.nan_to_num(np.mean(
+            [np.abs((env.k.vehicle.get_speed(veh_id) - env.k.vehicle.get_previous_speed(veh_id))/env.sim_step) for
+             veh_id in veh_ids if veh_id in env.k.vehicle.previous_speeds.keys()]
+        )))
+        episode.user_data["avg_accel_avs"].append(np.nan_to_num(np.mean(
+            [np.abs((env.k.vehicle.get_speed(veh_id) - env.k.vehicle.get_previous_speed(veh_id))/env.sim_step) for
+             veh_id in rl_ids if veh_id in env.k.vehicle.previous_speeds.keys()]
+        )))
 
     def on_episode_end(info):
         episode = info["episode"]
@@ -281,9 +292,10 @@ def on_episode_end(info):
         episode.custom_metrics["avg_energy_per_veh"] = np.mean(episode.user_data["avg_energy"])
         episode.custom_metrics["avg_mpg_per_veh"] = np.mean(episode.user_data["avg_mpg"])
         episode.custom_metrics["avg_mpj_per_veh"] = np.mean(episode.user_data["avg_mpj"])
+        episode.custom_metrics["num_cars"] = np.mean(episode.user_data["num_cars"])
 
     def on_train_result(info):
-        """Store the mean score of the episode, and adjust the number of adversaries."""
+        """Store the mean score of the episode, and increment or decrement the iteration number for curriculum."""
         trainer = info["trainer"]
         trainer.workers.foreach_worker(
             lambda ev: ev.foreach_env(
@@ -468,7 +480,6 @@ def train_stable_baselines(submodule, flags):
     """Train policies using the PPO algorithm in stable-baselines."""
     from stable_baselines.common.vec_env import DummyVecEnv
     from stable_baselines import PPO2
-
     flow_params = submodule.flow_params
     # Path to the saved files
     exp_tag = flow_params['exp_tag']