开题报告提交版.docx

下载文档 降价啦

4
0
约5.91千字
约 6页
2021-02-24 发布于山东
举报
版权申诉
保障服务

开题报告提交版.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要强化学习是机器学习的一个重要分支，它是一种以环境反馈作为输入的，特殊的、适应环境的学习。它将环境抽象成若干状态，通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知，因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢，因此如何能够优化的建立环境模型，如何提高算法效率就成为强化学习面临的主要问题。本次课题首先介绍强化学习的概念、建立系统模型，再介绍几种经典的强化学习算法，接着介绍目前解决若干问题而提出的 POMDP 模型，PSR 模型、HRL 模型，最后就 PSR 模型进行算法改进。关键词：强化学习；蒙特卡诺法； TD 算法； Q 学习； Sasar 学习； POMDP 模型； PSR 模型； HRL 模型强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的，在人工智能、机器学习和自动控制等领域中得到广泛的研究和应用，并被认为是设计智能系统的核心技术之一。一．强化学习的理论基础： 1.强化学习问题的框架：我们将有智能的学习体称为 agent，将系统分成若干个状态，每个状态 S 可以有不同的动作选择，对应的每个选择也就有一个值函数 Q（ s,a）。 Agent 选择一个动作 a 作用于环境，环境接收该动作后状态发生变化 (S’)，同时产生一个强化信号 r（奖赏）给 agent， agent 根据这个奖赏评价刚才的动作的好坏进而修改该动作值，并选择下一动作 a’。对于一个强化学习系统来讲，其目标是学习一个行为策略： π ：S-A ，使系统选择的动作能够获得环境奖赏的累计值 Σ r 最大。当一个动作导致环境给正的奖赏时这种动作的趋势就被加强，反之则减弱。强化学习的目的就是要学习从状态到动作的最佳映射，以便使奖励信号最大化。【 10， 11】强化学习的框架如图：新状态 S’ 环境状态 S 强化学习系统奖惩反馈 r 动作 a 2. 境的描述：通常，我从五个角度境行分析：【 4】角度一：离散状 vs 状角度二：状完全可感知 vs 状部分可感知角度三：插曲式 vs 非插曲式角度四：确定性 vs 不确定性角度五：静 vs 在化学中，我首先考最的境模型随机、离散状、离散其数学建模。我通常用科夫模型：科夫状：一个状信号保留了所有的相关信息，就是儿科夫的。儿科夫决策程（ MDP ）【2】： MDP 的本是：当状向下一状移的概率和只取决于当前状和的作，而与史状和作无关。化学主要研究在 P 和 R 函数未知的情况下系如何学最的行策略。用 rt+1 表示 t 刻的即【 7】，用 Rt 表示 t 刻的累， Rtt 刻开始到最后的所有和，而越后的作当前影响要比 t 刻逐减小，因此越往后的加上了一个折扣 γ ，， t 刻的和就是 Rt=r t+1+γ r t+2+γ 2rt+3+? =rt+1+γRt+1 （ 1） π (s)表示，它用 t 刻各个 t 刻状 s 的状（表示状 s 如何秀）用 V 作的的数学期望来表示。 π π V (s)=E {R t|st=s} =E π {r t+1+γV(s t+1)|st=s} π(s,a) Pssa [ Rssa π = γV (s’)] （ 2） a s 注意到里两式都是一个推式，称 Bellman 等式，写成种形式非常便于从状 s 到 s’ 算状。化学是要求一个最的策略 π* ，在上面的等式中表求状的最，在不断学化的程中状 s 得一个最 V* （ s），它表示在状 s 下取最的那个作而得的最大的累回。因此在最策略 π * 下，状 s 的最定： * V (s) = max E {r t+1+γ V(st+1)|st=s} a A ( s) = max Pssa [ Rssa γV π (s’)] （ 3） a A( s) s 各种算法的最目的便是算各状的最，并根据最去指作。二．典的化学算法回：划算法【 1】：划的思想，根据 2 式去不断由 V(s’)估 V(s) 的 ,估完成后下一次可以最的作，迭代到一定程度后算法收，每个 V(s) 都会收到一个定，从而学到一个最的策略。用公式表示： π V k+1 (s)=E {R t |st =s} π =E {r t+1+γ