跟新强化学习图片链接

This commit is contained in:
zeek 2020-04-25 17:06:58 +08:00
parent 1235a6e53a
commit 7e815697ce

View File

@ -15,7 +15,7 @@
状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能 状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能
走路时,就不会给巧克力。 走路时,就不会给巧克力。
![pic](http://www.zeekling.cn/gogsPics/ml/rl/1.png) ![pic](https://img.zeekling.cn/images/2020/04/25/4a709ecd87121eb9adab776e4e2108f1.png)
上图中agent代表自身如果是自动驾驶agent就是车无人驾驶的action就是车左转、右转或刹车等等,它无时无刻都在与环境产生交 上图中agent代表自身如果是自动驾驶agent就是车无人驾驶的action就是车左转、右转或刹车等等,它无时无刻都在与环境产生交
action会反馈给环境进而改变环境; action会反馈给环境进而改变环境;
@ -32,7 +32,7 @@ agent会越来越做的好就像孩子在成长过程中会逐渐明辨是非
当前的机器学习算法可以分为3种有监督的学习Supervised Learning、无监督的学习Unsupervised Learning和强化学习 当前的机器学习算法可以分为3种有监督的学习Supervised Learning、无监督的学习Unsupervised Learning和强化学习
Reinforcement Learning结构图如下所示 Reinforcement Learning结构图如下所示
![pic](http://www.zeekling.cn/gogsPics/ml/rl/2.png) ![pic](https://img.zeekling.cn/images/2020/04/25/aad795aadc89c31cca4c142079e6c6ab.png)
### 强化学习和监督式学习的区别 ### 强化学习和监督式学习的区别
@ -48,7 +48,7 @@ agent会越来越做的好就像孩子在成长过程中会逐渐明辨是非
强化学习不需要监督信号,可以在模型未知的环境中平衡探索和利用, 其主要算法有蒙特卡罗强化学习, 时间差分(temporal difference: 强化学习不需要监督信号,可以在模型未知的环境中平衡探索和利用, 其主要算法有蒙特卡罗强化学习, 时间差分(temporal difference:
TD)学习, 策略梯度等。典型的深度强化学习算法特点及性能比较如下图所示: TD)学习, 策略梯度等。典型的深度强化学习算法特点及性能比较如下图所示:
![pic](http://www.zeekling.cn/gogsPics/ml/rl/3.png) ![pic](https://img.zeekling.cn/images/2020/04/25/c3cdddc76f913cf3204f1ec01d15330f.png)
除了上述深度强化学习算法,还有深度迁移强化学习、分层深度强化学习、深度记忆强化学习以及多智能体强化学习等算法。 除了上述深度强化学习算法,还有深度迁移强化学习、分层深度强化学习、深度记忆强化学习以及多智能体强化学习等算法。