开题报告提交版.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 强化学习是机器学习的一个重要分支,它是一种以环境反馈作为输入的,特殊的、适应环境的学习。它将环境抽象成若干状态,通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知,因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢,因此如 何能够优化的建立环境模型, 如何提高算法效率就成为强化学习面临的主要问题。 本次课题首先介绍强化学习的概念、建立系统模型,再介绍几种经典的强化学习 算法,接着介绍目前解决若干问题而提出的 POMDP 模型,PSR 模型、HRL 模型,最后就 PSR 模型进行算法改进。 关键词 :强化学习;蒙特卡诺法; TD 算法; Q 学习; Sasar 学习; POMDP 模型; PSR 模型 ; HRL 模型 强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的, 在人工智能、机 器学习和自动控制等领域中得到广泛的研究和应用, 并被认为是设计智能系统的核心技术之 一。 一.强化学习的理论基础: 1.强化学习问题的框架: 我们将有智能的学习体称为 agent,将系统分成若干个状态, 每个状态 S 可以有不同 的动作选择,对应的每个选择也就有一个值函数 Q( s,a)。 Agent 选择一个动作 a 作用于 环境,环境接收该动作后状态发生变化 (S’),同时产生一个强化信号 r(奖赏)给 agent, agent 根据这个奖赏评价刚才的动作的好坏进而修改该动作值, 并选择下一动作 a’。对于 一个强化学习系统来讲,其目标是学习一个行为策略: π :S-A ,使系统选择的动作能 够获得环境奖赏的累计值 Σ r 最大。当一个动作导致环境给正的奖赏时这种动作的趋势 就被加强,反之则减弱。强化学习的目的就是要学习从状态到动作的最佳映射,以便使奖励信号最大化。 【 10, 11】 强化学习的框架如图: 新状态 S’ 环境 状态 S 强化学习系统 奖惩反馈 r  动作 a 2. 境的描述: 通常,我 从五个角度 境 行分析: 【 4】 角度一:离散状 vs 状 角度二:状 完全可感知 vs 状 部分可感知 角度三:插曲式 vs 非插曲式 角度四:确定性 vs 不确定性 角度五:静 vs 在 化学 中,我 首先考 最 的 境模型 随机、离散状 、离散 其数 学建模。我 通常用 科夫模型: 科夫状 :一个状 信号保留了所有的相关信息, 就是 儿科夫的。 儿科夫决策 程( MDP )【2】: MDP 的本 是:当状 向下一状 移的概率 和 只取决于当前状 和 的 作,而与 史状 和 作无关。 化学 主要研 究在 P 和 R 函数未知的情况下系 如何学 最 的行 策略。 用 rt+1 表示 t 刻的即 【 7】,用 Rt 表示 t 刻的累 , Rtt 刻开 始到最后的所有 和,而越后 的 作 当前影响要比 t 刻 逐 减小,因此越 往后的 加上了一个折扣 γ , , t 刻的 和就是 Rt=r t+1+γ r t+2+γ 2rt+3+? =rt+1+γRt+1 ( 1) π (s)表示,它用 t 刻 各个 t 刻状 s 的状 (表示状 s 如何 秀)用 V 作的 的数学期望来表示。 π π V (s)=E {R t|st=s} =E π {r t+1+γV(s t+1)|st=s} π(s,a) Pssa [ Rssa π = γV (s’)] ( 2) a s 注意到 里两式都是一个 推式,称 Bellman 等式,写成 种形式非常便于从状 s 到 s’ 算状 。 化学 是要 求一个最 的策略 π* ,在上面的等式中表 求状 的 最 ,在不断学 化的 程中 状 s 得一个最 V* ( s),它表示在状 s 下 取最 的那个 作而 得的最大的累 回 。因此在最 策略 π * 下,状 s 的 最 定 : * V (s) = max E {r t+1+γ V(st+1)|st=s} a A ( s) = max Pssa [ Rssa γV π (s’)] ( 3) a A( s) s 各种算法的最 目的便是 算各状 的最 ,并根据最 去指 作。 二. 典的 化学 算法回 : 划算法【 1】: 划的思想,根据 2 式去不断由 V(s’)估 V(s) 的 ,估 完成后下一次可以 最 的 作, 迭代到一定程度后算法收 ,每个 V(s) 都会收 到一个 定 ,从而学 到一个最 的策略。 用公式表示 : π V k+1 (s)=E {R t |st =s} π =E {r t+1+γ

文档评论(0)

153****3726 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档