- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
强化学习入门第二讲
郭宪
尺
机器人与信息自动化研究所
有大粤
ankai University
一周工作损告
南开大学机人与信息自动化研完所
强化学习的形式化
机器人〈观新
策略:π:S→u。常采用随机策略:π(uls)
的状
累积回报:R()=r(x)+)r(x,a)
折扣回报
值函数
环境
状态转移概率P(S+1s.a)
强化学习目标:max‖r(r)pn(r)d
最优策略:r:s→u
马尔科夫决策问题(p:四元组(SAPr)s
序贯决策问题
Nankai University
强化学习方法分类
序贯决策问题
马尔科夫决策过程MDP(APRy)
(S, A, P,R,y)
(S, A, P? R? Y?)
基于模型的动态规划方法
无模型的强化学习方法
策略迭代
略搜索
策略迭代
本节讲基于模型的策略迭代算法和值迭代算法
Nankai University
动态规划
动态规划是一类算法:包括离散和连续。马尔科夫决策过程(mP),贝尔曼最
动态:蕴含着序列决策
优性原理,得到贝尔曼最优化方程
规划:蕴含着优化,如线性优化,二次优化
或者非线性优化。
(s)=maxg+y)pgu、
尺
动态规划可以解决的问题
a'(S, a)=Rg+r) Pe, maxa'q'(s', a'?
1.整个优化问题可以分解成多个子优化问题
动态规划可以解决MP的问题
2.子优化问题的解可以被存储和重复利用
核心:动态规划通过值函数来迭代
构造最优解
Nankai University
策略评估( policy evaluation
给定策略π构造值函数
r(als)gr(s, a)
Ur(S)
4(s, a)=Rg+y)Psg, "n(s")
尺
n(s)←s10
模型已知,方程组中只有值函数是未知数,方程
组是线性方程组。未知数的数目等于状态的数目
采用数值迭代算法
Nankai University
Institute of Robotics and Automatic Information
您可能关注的文档
- 广播电视技术基础剖析.ppt
- 广播电视节目生产.ppt
- 广西 少数民族图案剖析.ppt
- 庄子具有极高文学价值.ppt
- 广泛应用高分子材料.ppt
- 广播电视新闻业务之编辑学习的资料.ppt
- 庄子教育思想.ppt
- 庄子和惠子游于濠梁精编版.ppt
- 广电网络互动电视业务的规划.ppt
- 庄子和惠子游于濠梁之上 优秀实用.ppt
- 注册工程师之专业知识综合提升检测卷提供答案解析.docx
- 2023-2024年质量员之设备安装质量基础知识考前冲刺模拟考试试卷含答案讲解.docx
- 2024年中药学类之中药学(士)综合提升模拟卷含答案讲解.docx
- 2024年二级建造师之二建水利水电实务综合提升训练试卷包括详细解答.docx
- 2024年一级造价师之建设工程技术与计量(交通)考前冲刺练习题库附带答案.docx
- 2023-2024年护师类之儿科护理主管护师综合提升试卷附带答案.docx
- 试验检测师之道路工程综合提升练习题库附答案详解.docx
- 2023-2024年注册消防工程师之消防技术综合能力综合提升模拟题库提供答案解析.docx
- 执业药师之中药学专业二考前冲刺模拟考试试卷包括详细解答.docx
- 质量员之土建质量专业管理实务练习题库.docx
文档评论(0)