跟新强化学习图片链接

2020-04-25 17:06:58 +08:00 · 2020-04-25 17:06:58 +08:00 · 7e815697ce
commit 7e815697ce
parent 1235a6e53a
1 changed files with 3 additions and 3 deletions
--- a/rl/README.md
+++ b/rl/README.md
@ -15,7 +15,7 @@
 状态转变到另一个状态（即他走的每一步），当他完成任务的子任务（即走了几步）时，孩子得到奖励（给巧克力吃），并且当他不能
 走路时，就不会给巧克力。

-![pic](http://www.zeekling.cn/gogsPics/ml/rl/1.png)
+![pic](https://img.zeekling.cn/images/2020/04/25/4a709ecd87121eb9adab776e4e2108f1.png)

 上图中agent代表自身，如果是自动驾驶，agent就是车；无人驾驶的action就是车左转、右转或刹车等等,它无时无刻都在与环境产生交
 互，action会反馈给环境，进而改变环境;
@ -32,7 +32,7 @@ agent会越来越做的好，就像孩子在成长过程中会逐渐明辨是非
 当前的机器学习算法可以分为3种：有监督的学习（Supervised Learning）、无监督的学习（Unsupervised Learning）和强化学习
 （Reinforcement Learning），结构图如下所示：

-![pic](http://www.zeekling.cn/gogsPics/ml/rl/2.png)
+![pic](https://img.zeekling.cn/images/2020/04/25/aad795aadc89c31cca4c142079e6c6ab.png)

 ### 强化学习和监督式学习的区别

@ -48,7 +48,7 @@ agent会越来越做的好，就像孩子在成长过程中会逐渐明辨是非
 强化学习不需要监督信号,可以在模型未知的环境中平衡探索和利用, 其主要算法有蒙特卡罗强化学习, 时间差分(temporal difference:
 TD)学习, 策略梯度等。典型的深度强化学习算法特点及性能比较如下图所示：

-![pic](http://www.zeekling.cn/gogsPics/ml/rl/3.png)
+![pic](https://img.zeekling.cn/images/2020/04/25/c3cdddc76f913cf3204f1ec01d15330f.png)

 除了上述深度强化学习算法，还有深度迁移强化学习、分层深度强化学习、深度记忆强化学习以及多智能体强化学习等算法。