强化学习 课件 第1章 强化学习概述.pptx

强化学习 课件 第1章 强化学习概述.pptx

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第一章强化学习概述北京大学余欣航

目录马尔可夫决策过程(MDP)MDP的分类强化学习强化学习的应用

有监督学习(supervisedlearning)数据集中的样本带有标签,有明确目标回归和分类无监督学习(unsupervisedlearning)数据集中的样本没有标签聚类、降维、概率密度估计、生成模型构建强化学习(reinforcementlearning)序列决策的过程,通过过程模拟和观察来不断学习,提高决策能力例如:AlphaGo机器学习的分类

强化学习的元素?智能体环境

时间序列?

马尔可夫过程?

马尔可夫过程??

若用马尔可夫过程来描述一个人上学的经历:如果一个人就读于重点中学,那么他考上重点大学的概率也比较大如果拥有重点大学的学历,那么找到一份好工作的概率也比较大马尔可夫过程

马尔可夫决策过程在读于普通中学的前提下:如果很努力学习,则考取重点大学的概率就会相对变高如果沉迷于打游戏、不花心思到学习上,那么考取重点大学的概率就会变得很低站在自身的角度来看待求学的经历,考取重点大学的概率并不只是“客观的规律”决定的,也有“主观能动性”的成分

马尔可夫决策过程马尔可夫决策过程(MarkovDecisionProcess,MDP)还需要定义动作与奖励若将奖励定义为求学经历中获得的“幸福感”:在中学采取“努力学习”的动作,可能因为玩的时间更少,而只有较低的“幸福感”,但这帮助我们考上了更好的大学,这个更好的状态有助于未来获得更多的“幸福感”要在“先苦后甜”与“及时行乐”中进行取舍,选择正确的动作方式,以获得最幸福的人生状态动作下一个状态

MDP的定义?

目标:最大化效用??

终止状态?

马尔可夫过程与MDP的对比马尔可夫过程客观规律宏观性质例如遍历定理(研究的是某个微粒在无穷长的时间内是否“肯定”会经历某个状态,或无穷次经历某个状态)、强遍历定理(不同状态之间的概率分布是否“肯定”会收敛于一个稳定的分布)MDP具体的问题主观操作求解如何对一个具体的问题采取措施,使得获得的效果最好工程中很多实际问题适合被定义为MDP而非马尔可夫过程

MDP的分类

MDP的分类方式根据状态与动作是否连续进行分类根据环境是否已知进行分类根据环境的随机性或确定性进行分类根据环境的时齐性进行分类根据时间的连续性进行分类根据MDP是否退化进行分类

动作连续与离散的MDP动作是连续变量,则策略的求解类似于机器学习训练回归模型的过程动作是离散变量,则策略的求解类似于机器学习训练分类模型的过程Refer:https://jacklee.work

状态与动作离散的MDP状态是连续或是离散也很重要,决定了模型的形式:象棋的动作与状态数量有限,且离散(不存在中间状态)状态:棋盘的局势,各棋子的位置动作:下一步落子的方式奖励:吃掉对方棋子的价值,如兵1分、马4分等只将胜利设为得到奖励,中间吃子不算目标:寻找最佳走棋策略,以获得最大效用?

状态连续、动作离散的MDP例如“黄金矿工”游戏中:状态连续:黄金、石头、钻石、炸药桶的位置动作离散:放炸弹、下钩、等待

状态与动作连续的MDP自动驾驶可以定义为一个状态和动作都是连续的问题:状态连续:传感器捕捉到的当前路况图像动作连续:操作方向盘、踩油门、刹车等动作,方向盘转动的角度与加速度都是连续的

环境已知的MDP(model-base)????????????????

环境已知的MDP:最优控制?列夫·庞特里亚金理查德·贝尔曼完成最优控制理论的开创性工作

环境未知的MDP(model-free)?

确定性环境的MDP例如一个简单的MDP:对于一个MDP,当其S、A、P、R都确定之后,应该有一个最佳策略,是一个“状态→动作”形式的映射,它到底是一个什么样的映射呢?状态:圆所处的位置动作:圆左移或者右移奖励:到达五角星获得的奖励

确定性环境的MDP最佳策略很简单,即一直向右移动环境是“确定”的,即在给定状态采取给定动作,下一步的状态与奖励是完全确定的此时MDP的最佳策略对应的动作是常量!(不用根据状态确定)状态:圆所处的位置动作:圆左移或者右移奖励:到达五角星获得的奖励

随机性环境的MDP?

MDP的时齐性?

MDP的时齐性?时齐与否在于对“时间”性质的定义:时齐MDP中的“时间”是一种“相对的”度量标尺,例如“一年”、“一个回合”非时齐MDP中的“时间”是“绝对的”历史度量,例如“公元2018年”或者“第100个回合”非时齐性环境:房价的“水涨船高”

??

时齐性对策略的影响?

时齐性对策略的影响当环境为确定、时齐时,则策略为“动作=常量”当环境为随机、时齐时,则策略为“状态→动作

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档