在该项目中,你将使用强化学习算法,实现一个自动走迷宫机器人。
- 如上图所示,智能机器人显示在右上角。在我们的迷宫中,有陷阱(红色炸弹)及终点(蓝色的目标点)两种情景。机器人要尽量避开陷阱、尽快到达目的地。
- 机器人可执行的动作包括:向上走
u
、向右走r
、向下走d
、向左走l
。 - 执行不同的动作后,根据不同的情况会获得不同的奖励,具体而言,有以下几种情况。
- 撞到墙壁:-10
- 走到终点:50
- 走到陷阱:-30
- 其余情况:-0.1
- 我们需要通过修改
robot.py
中的代码,来实现一个 Q Learning 机器人,实现上述的目标。
- 配置环境,使用
environment.yml
文件配置名为robot-env
的 conda 环境,具体而言,你只需转到当前的目录,在命令行/终端中运行如下代码,稍作等待即可。
conda env create -f environment.yml
安装完毕后,在命令行/终端中运行 source activate robot-env
(Mac/Linux 系统)或 activate robot-env
(Windows 系统)激活该环境。
- 阅读
robot_maze.ipynb
中的指导完成项目,并根据指导修改对应的代码,生成、观察结果。 - 导出代码与报告,上传文件,提交审阅并优化。