第06章强化学习(1).ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
養天地正氣 法古今完人 * / 33 養天地正氣 法古今完人 * / 33 養天地正氣 法古今完人 * / 36 Automation and Control Engineering Series 强化学习(1) 1 介绍 1.1 动态规划与强化学习问题 1.3 关于本书 1.2 动态规划与强化学习中的逼近 前言(1) 动态规划(DP) 强化学习(RL) 解决最优控制问题 需要行为模型 不需要行为模型 在一段时间里,为获得预期目标,选择哪些动作(决策)应用于系统。 目标:是优化长期性能,即与环境交互过程中的累计奖赏。 奖赏:奖赏用于评价一步决策性能。 自动控制 人工智能 运筹学 医学 经济学 应用: 自动控制:控制器接收来自过程的输出指标(状态,奖赏),通过控制器的决策,对过程采取一些动作,产生满足某种要求的行为。 决策者是控制器,系统是被控制的过程。 人工智能:采取动作,通过感知和影响来监测其所处的环境。 决策者是agent,系统是agent所处的环境。 前言(2) 控制器 过程 动作 输出 智能agent 环境 动作 感知 自动控制 人工智能 DP: 需要系统模型。 优点:几乎不需要对系统做任何假设,可以具有非线性和随机性。 构造模拟模型比衍生一个解析模型容易,特别是对随机情况。 前言(3) RL: 不需要系统模型。(事先对系统无法全面感知,代价太大,无法得到) 优点:系统中得到的数据来工作,不需要行为模型。 离线RL,在线RL。 如有模型,可用模型替代实际系统,产生数据。 1.1 动态规划与强化学习问题(1) DP和RL问题的主要要素是通过它们之间的交互流联系在一起: 过程为控制器提供目前所处的状态。 控制器根据目前的状态,为过程提供应采取的动作。 过程给出下一状态,并根据奖赏函数,给出其获得的立即奖赏。 1.1 动态规划与强化学习问题(2) 目标:避开障碍物,从底端到达右上角的目标。 控制器(agent):机器人的软件,决策算法。 过程(环境):与机器人密切相关的环境(地面、障碍物、目标等)。用于决策的物理实体、传感器和执行器。 goal obstacle 1.1 动态规划与强化学习问题(3) 状态(x):机器人的位置(直角坐标)。 动作(u):机器人走一步(直角坐标)。 迁移函数(f):从目前的位置走一步,到达下一位置,遇到障碍变复杂。 奖赏函数(?):产生奖赏(r),评价迁移的质量。 目标:+10;障碍:-1;其他:0,可构造带更多信息的奖赏。 策略(h):从状态到动作的映射。 goal obstacle 1.1 动态规划与强化学习问题(4) 在DP和RL中,目标是使回报最大化,其中回报是由交互过程中的累积奖赏构成。 主要考虑折扣无限水平回报,即累积回报开始于初始时间步k=0,沿(可能)无限长的轨迹,对得到的奖赏值进行累积,通过一个因子γ∈[0,1]对奖赏加权,这个因子随着时间步的增加呈指数地减少。 goal obstacle “远视”程度 1.1 动态规划与强化学习问题(5) 奖赏依赖于所遵循的状态-动作轨迹,每个奖赏rk+1是迁移(xk,uk,xk+1)的结果,状态-动作轨迹依赖于使用的策略: DP和RL的核心挑战 得到一个解,通过由立即奖赏构成的回报优化长期性能。 解DP/RL问题转化为找最优策略h*问题,即对每个初始状态,使其回报最大化。 得到最优策略的方法: 计算最大的回报: 1.2 动态规划与强化学习中的逼近(1) 为保证表示的精确性,唯一的方法是,对每个状态-动作对,存储各自的Q函数值(Q值)。 存在问题: 对于机器人的每个位置,以及相应位置可能采取的每个走步,都必须存储其值。 因为位置和走步都是连续变化的,因此可能得到无穷多个不同的值。 使用Q函数的压缩表示。 1.2 动态规划与强化学习中的逼近(2) Q函数的压缩表示 步骤: 在状态空间中,定义有限个BF,ψ1,… ψN (径向基函数,Tile 编码,粗糙编码等)。 动作空间被离散化为有限多个动作(导航实例中,“最近邻”离散化为left, right, forward, back四个动作)。 对于每个状态动作对,不再存储各自的Q值,而是存储参数向量θ。一组BF和一个离散动作的结合都对应的一个参数向量θ ,θ的维数与向量ψ 相同。 状态依赖基函数 动作离散化 对于每个状态x,通过公式 ,计算出相对应的ψ1,… ψN 。 “forward”对应的θ向量为: 线性方法,状态动作对(x,forward)

文档评论(0)

yuguanyin2015 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档