diff --git a/rl/README.md b/rl/README.md index 1053fc5..90bf3a6 100644 --- a/rl/README.md +++ b/rl/README.md @@ -15,7 +15,7 @@ 状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能 走路时,就不会给巧克力。 -![pic](http://www.zeekling.cn/gogsPics/ml/rl/1.png) +![pic](https://img.zeekling.cn/images/2020/04/25/4a709ecd87121eb9adab776e4e2108f1.png) 上图中agent代表自身,如果是自动驾驶,agent就是车;无人驾驶的action就是车左转、右转或刹车等等,它无时无刻都在与环境产生交 互,action会反馈给环境,进而改变环境; @@ -32,7 +32,7 @@ agent会越来越做的好,就像孩子在成长过程中会逐渐明辨是非 当前的机器学习算法可以分为3种:有监督的学习(Supervised Learning)、无监督的学习(Unsupervised Learning)和强化学习 (Reinforcement Learning),结构图如下所示: -![pic](http://www.zeekling.cn/gogsPics/ml/rl/2.png) +![pic](https://img.zeekling.cn/images/2020/04/25/aad795aadc89c31cca4c142079e6c6ab.png) ### 强化学习和监督式学习的区别 @@ -48,7 +48,7 @@ agent会越来越做的好,就像孩子在成长过程中会逐渐明辨是非 强化学习不需要监督信号,可以在模型未知的环境中平衡探索和利用, 其主要算法有蒙特卡罗强化学习, 时间差分(temporal difference: TD)学习, 策略梯度等。典型的深度强化学习算法特点及性能比较如下图所示: -![pic](http://www.zeekling.cn/gogsPics/ml/rl/3.png) +![pic](https://img.zeekling.cn/images/2020/04/25/c3cdddc76f913cf3204f1ec01d15330f.png) 除了上述深度强化学习算法,还有深度迁移强化学习、分层深度强化学习、深度记忆强化学习以及多智能体强化学习等算法。