该项目记录自己学习RL过程和对每个算法的理解,持续更新。
(每一个算法都会在附上代码的同时加上自己对原理的理解。其中大部分的原理讲解来自于李宏毅老师的蘑菇书--EasyRL,代码部分自己实现)
1.第一次更新 REINFORCE 2022.5.16
2.第二次更新 DQN 2022.5.28
3.第三次更新 强化学习与马尔可夫链(第一部分) 2023.1.15
4.第四次更新 强化学习与马尔可夫链(第二部分) 2023.3.8
5.第五次更新基于价值函数的思想来源和逐步推导 2023.3.25