Skip to content

国立台湾大学李宏毅老师讲解的深度强化学习学习笔记

Notifications You must be signed in to change notification settings

lzhhh93/NTU-ReinforcementLearning-Notes

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

李宏毅深度强化学习 笔记

课程主页:NTU-MLDS18

视频:

1

这门课的学习路线如上,强化学习是作为单独一个模块介绍。李宏毅老师讲这门课不是从MDP开始讲起,而是从如何获得最大化奖励出发,直接引出Policy Gradient(以及PPO),再讲Q-learning(原始Q-learning,DQN,各种DQN的升级),然后是A2C(以及A3C, DDPG),紧接着介绍了一些Reward Shaping的方法(主要是Curiosity,Curriculum Learning ,Hierarchical Learning),最后介绍Imitation Learning (Inverse RL)。比较全面的展现了深度强化学习的核心内容,也比较直观。跟伯克利学派的课类似,与UCL上来就讲MDP,解各种value iteration的思路有较大区别。 文档中的notes以对slides的批注为主,方便在阅读slides时理解,code以纯tensorflow实现,主要参考莫凡RL教学,修正部分代码以保持前后一致性,已经加入便于理解的注释。

参考资料:

作业代码参考 纯numpy实现非Deep的RL算法 OpenAI tutorial 莫凡RL教学

  • code中的tensorlayer实现来自于Tensorlayer-RL,比起原生tensorflow更加简洁

About

国立台湾大学李宏毅老师讲解的深度强化学习学习笔记

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%