AI学习笔记——强化学习之值函数近似(Value Function Approximation)(2)

综合技术 2018-12-07 阅读原文

前文介绍了函数近似来预测V函数,但是还没涉及到行动和控制,这篇文章就来谈谈用近似Q函数来控制和行动。

1. 控制——递增算法 Incremental Control Algorithms

回顾前文动态规划(DP)解决MDP我们用迭代+Greedy的方法寻找最优策略

同样的,在使用近似函数之后,也可以使用类似的方法

分为两个步骤

  • 第一步,进行策略评估,当然这里是用近似函数,将w带入

  • 第二步,策略改善,及用Ɛ-greedy的方法行动并调整参数w,如何行动就要涉及到Q函数了,这个会在后文介绍。

与DP不同的地方是,由于是采用近似函数,所以一开始并不能达到最优q函数q ,只能在不断迭代qw之后最终接近q

2.行为价值函数(Q函数)的近似函数

与V函数一样,Q函数也可以有近似函数的表达方式

最小化均方差(损失函数):

用梯度下降法寻找局部最优解,需要修正的权重∆w:

同样的可以用特征向量的线性函数(线性组合)来作为Q函数的近似函数:

此时,与V函数一样

  • 对于MC

  • 对于TD(0)

  • 对于TD(λ)

    前向认识:

    后向认识:

3. 收敛性

  • 预测学习

    近似函数来寻找最优策略有明显的优势,但是相比于传统的(查表)方法是否是一直能收敛的呢,答案是:不一定,下表总结了如下:

    可以发现MC方法无论在On-Policy 还是Off-Policy的学习中都能收敛,TD在On-Policy的学习中使用非线性近似函数的时候是不收敛的,在Off-Policy的学习中,无论是线性还是非线性的近似函数中,都不能收敛。

TD算法在更新参数时不遵循任何目标函数的梯度是导致它在离线策略或使用非线性近似函数可能会发散的原因,我们可以通过修改TD算法使得它遵循Projected Bellman Error的梯度进而收敛,这就是Gradient TD 的算法,但是课程中并没详细讲解该算法的原理。

  • 控制学习

    在控制学习的算法中,收敛性如图所示:

    (√) 表示在最优价值函数附近震荡

    由此可见,非线性的近似函数用于控制算法都是无法收敛的。也就是说如果用神经网络来训练,无论是MC Control,Sarsa还是Q-Learning 都是无法收敛的。如何解决这个问题,我们就需要用到前面文中提到的DQN(Deep Q-Learning)的方法了。

之前的那篇文章是从应用的角度介绍了DQN,下一篇文章将会从理论的角度介绍批方法(Batch Methods)以及利用批方法实现DQN解决非线性近似函数对控制学习无法收敛的问题。

相关文章

AI学习笔记——求解最优MDP

AI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介

AI学习笔记——Q Learning

AI学习笔记——Sarsa算法

AI学习笔记——卷积神经网络(CNN)

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言或者访问我的Steemit主页

简书

责编内容by:简书阅读原文】。感谢您的支持!

您可能感兴趣的

Sklearn 与 TensorFlow 机器学习实用指南 —— 第11章 训练深层神经网络(下)... 训练稀疏模型 所有刚刚提出的优化算法都会产生密集的模型,这意味着大多数参数都是非零的。 如果你在运行时需要一个非常快速的模型,或者如果你需要它占用较少的内存,你可能更喜欢用一个稀疏模型来代替。 实现这一点的一个微不足道的方...
AI现在还仅仅是“物理学出现之前的工程学”... 【腾讯科技编者按】科技评论网站日前发表文章,介绍了深度学习的发展趋势及其局限。虽然深度学习已经是当前的一股热潮,也取得了不少成果,但业界人士指出,目前的深度学习就像是“物理学出现之前的工程学”。以下为原文摘要: 人工智能(AI...
杂谈CNN:如何通过优化求解输入图像 雷锋网(公众号:雷锋网)按:本文作者達聞西,原载于作者 知乎专栏 ,雷锋网经授权发布。 机器学习和优化问题 很多机器学习方法可以归结为优化问题,对于一个参数模型,比如神经网络,用 y=f(x;θ) 来表示...
302页吴恩达Deeplearning.ai课程笔记,详记基础知识与作业代码... 资源链接:https://pan.baidu.com/s/1oAqpmUe 提取密码:5nmn 在这份笔记中,Wan Zhen 不仅介绍了每个课程的关键知识点,同时还详细解释了各课程的编程作业。在第一门课程《神经网络与...
Building a Wine Tasting Neural Network with Node.j... One of the great perks of living in the San Francisco Bay Area is proximity to some amazing wine regions. Over the last...