第06章强化学习(1).ppt

下载文档 降价啦

5
0
约2.8千字
约 18页
2020-08-15 发布于山西
举报
版权申诉
保障服务

第06章强化学习(1).ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

養天地正氣法古今完人 * / 33 養天地正氣法古今完人 * / 33 養天地正氣法古今完人 * / 36 Automation and Control Engineering Series 强化学习(1) 1 介绍 1.1 动态规划与强化学习问题 1.3 关于本书 1.2 动态规划与强化学习中的逼近前言（1）动态规划（DP）强化学习（RL）解决最优控制问题需要行为模型不需要行为模型在一段时间里，为获得预期目标，选择哪些动作（决策）应用于系统。目标：是优化长期性能，即与环境交互过程中的累计奖赏。奖赏：奖赏用于评价一步决策性能。自动控制人工智能运筹学医学经济学应用：自动控制：控制器接收来自过程的输出指标（状态，奖赏），通过控制器的决策，对过程采取一些动作，产生满足某种要求的行为。决策者是控制器，系统是被控制的过程。人工智能：采取动作，通过感知和影响来监测其所处的环境。决策者是agent，系统是agent所处的环境。前言（2）控制器过程动作输出智能agent 环境动作感知自动控制人工智能 DP: 需要系统模型。优点：几乎不需要对系统做任何假设，可以具有非线性和随机性。构造模拟模型比衍生一个解析模型容易，特别是对随机情况。前言（3） RL: 不需要系统模型。（事先对系统无法全面感知，代价太大，无法得到）优点：系统中得到的数据来工作，不需要行为模型。离线RL，在线RL。如有模型，可用模型替代实际系统，产生数据。 1.1 动态规划与强化学习问题（1） DP和RL问题的主要要素是通过它们之间的交互流联系在一起: 过程为控制器提供目前所处的状态。控制器根据目前的状态，为过程提供应采取的动作。过程给出下一状态，并根据奖赏函数，给出其获得的立即奖赏。 1.1 动态规划与强化学习问题（2）目标：避开障碍物，从底端到达右上角的目标。控制器（agent）:机器人的软件，决策算法。过程（环境）：与机器人密切相关的环境（地面、障碍物、目标等）。用于决策的物理实体、传感器和执行器。 goal obstacle 1.1 动态规划与强化学习问题（3）状态（x）：机器人的位置（直角坐标）。动作（u）：机器人走一步（直角坐标）。迁移函数（f）：从目前的位置走一步，到达下一位置，遇到障碍变复杂。奖赏函数（?）：产生奖赏（r），评价迁移的质量。目标：+10；障碍：-1；其他：0，可构造带更多信息的奖赏。策略（h）:从状态到动作的映射。 goal obstacle 1.1 动态规划与强化学习问题（4）在DP和RL中，目标是使回报最大化，其中回报是由交互过程中的累积奖赏构成。主要考虑折扣无限水平回报，即累积回报开始于初始时间步k=0，沿（可能）无限长的轨迹，对得到的奖赏值进行累积，通过一个因子γ∈[0,1]对奖赏加权，这个因子随着时间步的增加呈指数地减少。 goal obstacle “远视”程度 1.1 动态规划与强化学习问题（5）奖赏依赖于所遵循的状态-动作轨迹，每个奖赏rk+1是迁移（xk,uk,xk+1）的结果，状态-动作轨迹依赖于使用的策略： DP和RL的核心挑战得到一个解，通过由立即奖赏构成的回报优化长期性能。解DP/RL问题转化为找最优策略h*问题，即对每个初始状态，使其回报最大化。得到最优策略的方法：计算最大的回报： 1.2 动态规划与强化学习中的逼近（1）为保证表示的精确性，唯一的方法是，对每个状态-动作对，存储各自的Q函数值（Q值）。存在问题：对于机器人的每个位置，以及相应位置可能采取的每个走步，都必须存储其值。因为位置和走步都是连续变化的，因此可能得到无穷多个不同的值。使用Q函数的压缩表示。 1.2 动态规划与强化学习中的逼近（2） Q函数的压缩表示步骤：在状态空间中，定义有限个BF，ψ1,… ψN （径向基函数，Tile 编码，粗糙编码等）。动作空间被离散化为有限多个动作（导航实例中，“最近邻”离散化为left, right, forward, back四个动作）。对于每个状态动作对，不再存储各自的Q值，而是存储参数向量θ。一组BF和一个离散动作的结合都对应的一个参数向量θ ，θ的维数与向量ψ 相同。状态依赖基函数动作离散化对于每个状态x，通过公式，计算出相对应的ψ1,… ψN 。 “forward”对应的θ向量为：线性方法，状态动作对(x,forward)