最优控制第7章动态编程.ppt

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最优控制第7章动态编程

第七章 动态规划法 ; 动态规划是贝尔曼在50年代作为多段决策过程 研究出来的,现已在许多技术领域中获得广泛应 用。动态规划是一种分段最优化方法,它既可用来 求解约束条件下的函数极值问题,也可用于求解约 束条件下的泛函极值问题。它与极小值原理一样, 是处理控制矢量被限制在一定闭集内,求解最优控 制问题的有效数学方法之一。 ; 动态最优的核心是最优性原理,它首先将一个 多段决策问题转化为一系列单段决策问题,然后从 最后一段状态开始逆向递推到初始段状态为止的一 套求解最优策略的完整方法。 下面先介绍动态规划的基本概念,然后讨论连 续型动态规划。 ;一、多段决策问题 动态规划是解决多段决策过程优化问题的一 种强有力的工具。所谓多段决策过程,是指把一 个过程按时间或空间顺序分为若干段,然后给每 一步作出“决策”(或控制),以使整个过程取得最优 的效果。; 如图1所示,对于中间的任意一段,例如第k+1 段作出相应的“决策”(或控制)uk后,才能确定该段输 入状态与输出状态间的关系,即从xk变化到xk+1的状 态转移规律。在选择好每一段的“决策”(或控制) uk 以后,那么整个过程的状态转移规律从x0经xk一直到 xN也就被完全确定。全部“决策”的总体,称为“策 略”。 ; 当然,如果对每一段的决策都是按照使某种性 能指标为最优的原则作出的,那么这就是一个多段 最优决策过程。 ; 容易理解,在多段决策过程中,每一段(如第 k+1段)的输出状态(xk+1)都仅仅与该段的决策(uk)及 该段的初始状态(xk)有关。而与其前面各段的决策 及状态的转移规律无关。这种性质称为无后效性。 下面以最优路线问题为例,来讨论动态规划求 解多段决策问题。 ; 设汽车从A城出发到B城,途中需穿越三条河 流,它们各有两座桥P、Q可供选择通过,如图2所 示。各段间的行车时间(或里程、费用等)已标注在 相应段旁。问题是要确定一条最优行驶路线,使从 A城出发到B城的行车时间最短。 ;摈从栗捍胀彭癣隆铸村赣过爱癸嘉挡肯眠寨囱臀惫悼焉礁堪珊孪谁藕嗜犹最优控制第7章动态编程最优控制第7章动态编程; 现将A到B分成四段,每一段都要作一最优决策,使总过程时间为最短。所以这是一个多段最优决策问题。 由图2可知,所有可能的行车路线共有8条。如果将各条路线所需的时间都一一计算出来,并作一比较,便可求得最优路线是AQ1P2Q3B,历时12。这种一一计算的方法称为穷举算法。这种方法计算量大,如本例就要做3×23=24次加法和7次比较。如果决策一个n段过程,则共需(n-1)2n-1次加法和(2n-1-1)次比较。可见随着段数的增多,计算量将急剧增加。 ; 应用动态规划法可使计算量减少许多。动态规 划法遵循一个最优化原则:即所选择的最优路线必 须保证其后部子路线是最优的。 例如在图2中,如果AQ1P2Q3B是最优路线,那么 从这条路线上任一中间点到终点之间的一段路线必 定也是最优的。否则AQ1P2Q3B就不能是最优路线 了。 ; 根据这一原则,求解最优路线问题,最好的办 法就是从终点开始,按时间最短为目标,逐段向前 逆推。依次计算出各站至终点之间的时间最优值, 并据此决策出每一站的最优路线。如在图2中,从终 点B开始逆推。 ; 最后一段(第四段):终点B的前站是P3或Q3,不 论汽车先从哪一站始发,行驶路线如何,在这最后 一段,总不外乎是从P3到B,历时为4,或从Q3到B, 历时为2,将其标明在图3中相应的圆圈内。比较P3与 Q3这一最后一段最优决策为Q3B。 ; 最后一段(第四段):终点B的前站是P3或Q3,不 论汽车先从哪一站始发,行驶路线如何,在这最后 一段,总不外乎是从P3到B,历时为4,或从Q3到B, 历时为2,将其标明在图3中相应的圆圈内。比较P3与 Q3这一最后一段最优决策为Q3B。 ; 第三段:P3、Q3的前站是P2、Q2。在这一段也 不论其先后的情况如何,只需对从P2或Q2到B进行最 优决策。从P2到B有两条路线:P2P3B,历时为6; P2Q3B,历时为4,取最短历时4,标注在P2旁。从Q2 到B也有两条路线:Q2P3B,历时为7;Q2Q3B,历时 为5,取最短历时5,标注在Q2旁。比较P2与Q2的最 优值,可知这一段的最优路线是P2Q3B。 ; 第二段: P2、Q2的前站是P1、Q1。同样不管 汽车是如何到达的P1、Q1,重要的是保证从P1或 Q1到B要构成最优路线。从P1到B的两条路线中, P1P2Q3B,历时

文档评论(0)

jgx3536 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档