李宏毅深度强化学习笔记

课程主页：NTU-MLDS18

视频：

youtube
B站

这门课的学习路线如上，强化学习是作为单独一个模块介绍。李宏毅老师讲这门课不是从MDP开始讲起，而是从如何获得最大化奖励出发，直接引出Policy Gradient（以及PPO），再讲Q-learning（原始Q-learning，DQN，各种DQN的升级），然后是A2C（以及A3C, DDPG），紧接着介绍了一些Reward Shaping的方法（主要是Curiosity，Curriculum Learning ，Hierarchical Learning），最后介绍Imitation Learning (Inverse RL)。比较全面的展现了深度强化学习的核心内容，也比较直观。跟伯克利学派的课类似，与UCL上来就讲MDP，解各种value iteration的思路有较大区别。文档中的notes以对slides的批注为主，方便在阅读slides时理解，code以纯tensorflow实现，主要参考莫凡RL教学，修正部分代码以保持前后一致性，已经加入便于理解的注释。

参考资料：

作业代码参考纯numpy实现非Deep的RL算法 OpenAI tutorial 莫凡RL教学

code中的tensorlayer实现来自于Tensorlayer-RL,比起原生tensorflow更加简洁

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
code		code
notes		notes
slides		slides
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

李宏毅深度强化学习笔记

课程主页：NTU-MLDS18

视频：

参考资料：

About

Releases

Packages

Languages

lzhhh93/NTU-ReinforcementLearning-Notes

Folders and files

Latest commit

History

Repository files navigation

李宏毅深度强化学习 笔记

课程主页：NTU-MLDS18

视频：

参考资料：

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

李宏毅深度强化学习笔记

Packages