跟新强化学习图片链接
This commit is contained in:
parent
1235a6e53a
commit
7e815697ce
@ -15,7 +15,7 @@
|
||||
状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能
|
||||
走路时,就不会给巧克力。
|
||||
|
||||
![pic](http://www.zeekling.cn/gogsPics/ml/rl/1.png)
|
||||
![pic](https://img.zeekling.cn/images/2020/04/25/4a709ecd87121eb9adab776e4e2108f1.png)
|
||||
|
||||
上图中agent代表自身,如果是自动驾驶,agent就是车;无人驾驶的action就是车左转、右转或刹车等等,它无时无刻都在与环境产生交
|
||||
互,action会反馈给环境,进而改变环境;
|
||||
@ -32,7 +32,7 @@ agent会越来越做的好,就像孩子在成长过程中会逐渐明辨是非
|
||||
当前的机器学习算法可以分为3种:有监督的学习(Supervised Learning)、无监督的学习(Unsupervised Learning)和强化学习
|
||||
(Reinforcement Learning),结构图如下所示:
|
||||
|
||||
![pic](http://www.zeekling.cn/gogsPics/ml/rl/2.png)
|
||||
![pic](https://img.zeekling.cn/images/2020/04/25/aad795aadc89c31cca4c142079e6c6ab.png)
|
||||
|
||||
### 强化学习和监督式学习的区别
|
||||
|
||||
@ -48,7 +48,7 @@ agent会越来越做的好,就像孩子在成长过程中会逐渐明辨是非
|
||||
强化学习不需要监督信号,可以在模型未知的环境中平衡探索和利用, 其主要算法有蒙特卡罗强化学习, 时间差分(temporal difference:
|
||||
TD)学习, 策略梯度等。典型的深度强化学习算法特点及性能比较如下图所示:
|
||||
|
||||
![pic](http://www.zeekling.cn/gogsPics/ml/rl/3.png)
|
||||
![pic](https://img.zeekling.cn/images/2020/04/25/c3cdddc76f913cf3204f1ec01d15330f.png)
|
||||
|
||||
除了上述深度强化学习算法,还有深度迁移强化学习、分层深度强化学习、深度记忆强化学习以及多智能体强化学习等算法。
|
||||
|
||||
|
Reference in New Issue
Block a user