- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
强化学习是机器学习的一个重要分支,它是一种以环境反馈作为输入的,特殊的、适应环境的学习。它将环境抽象成若干状态,通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知,因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢,因此如
何能够优化的建立环境模型, 如何提高算法效率就成为强化学习面临的主要问题。
本次课题首先介绍强化学习的概念、建立系统模型,再介绍几种经典的强化学习
算法,接着介绍目前解决若干问题而提出的 POMDP 模型,PSR 模型、HRL 模型,最后就 PSR 模型进行算法改进。
关键词 :强化学习;蒙特卡诺法; TD 算法; Q 学习; Sasar 学习; POMDP 模型; PSR 模型 ; HRL 模型
强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的, 在人工智能、机
器学习和自动控制等领域中得到广泛的研究和应用, 并被认为是设计智能系统的核心技术之
一。
一.强化学习的理论基础:
1.强化学习问题的框架:
我们将有智能的学习体称为 agent,将系统分成若干个状态, 每个状态 S 可以有不同
的动作选择,对应的每个选择也就有一个值函数 Q( s,a)。 Agent 选择一个动作 a 作用于
环境,环境接收该动作后状态发生变化 (S’),同时产生一个强化信号 r(奖赏)给 agent,
agent 根据这个奖赏评价刚才的动作的好坏进而修改该动作值, 并选择下一动作 a’。对于
一个强化学习系统来讲,其目标是学习一个行为策略: π :S-A ,使系统选择的动作能
够获得环境奖赏的累计值 Σ r 最大。当一个动作导致环境给正的奖赏时这种动作的趋势
就被加强,反之则减弱。强化学习的目的就是要学习从状态到动作的最佳映射,以便使奖励信号最大化。 【 10, 11】
强化学习的框架如图:
新状态 S’
环境
状态 S
强化学习系统
奖惩反馈 r
动作 a
2. 境的描述:
通常,我 从五个角度 境 行分析:
【 4】
角度一:离散状
vs 状
角度二:状 完全可感知
vs 状 部分可感知
角度三:插曲式
vs 非插曲式
角度四:确定性
vs 不确定性
角度五:静
vs
在 化学 中,我 首先考 最 的 境模型
随机、离散状 、离散 其数
学建模。我 通常用 科夫模型:
科夫状 :一个状 信号保留了所有的相关信息, 就是 儿科夫的。
儿科夫决策 程(
MDP )【2】: MDP 的本 是:当状 向下一状 移的概率
和 只取决于当前状 和 的 作,而与 史状 和 作无关。 化学 主要研
究在 P 和 R 函数未知的情况下系 如何学 最 的行 策略。
用 rt+1 表示 t 刻的即 【
7】,用 Rt 表示 t 刻的累 , Rtt 刻开
始到最后的所有 和,而越后 的 作 当前影响要比
t 刻 逐 减小,因此越
往后的 加上了一个折扣
γ , , t 刻的 和就是
Rt=r t+1+γ r t+2+γ 2rt+3+?
=rt+1+γRt+1
( 1)
π
(s)表示,它用 t 刻 各个
t 刻状 s 的状 (表示状 s 如何 秀)用 V
作的 的数学期望来表示。
π
π
V (s)=E
{R t|st=s}
=E
π
{r t+1+γV(s t+1)|st=s}
π(s,a)
Pssa [ Rssa
π
=
γV
(s’)]
( 2)
a
s
注意到 里两式都是一个 推式,称
Bellman 等式,写成 种形式非常便于从状
s 到 s’ 算状 。
化学 是要 求一个最 的策略
π* ,在上面的等式中表 求状 的
最 ,在不断学 化的 程中 状
s 得一个最
V* ( s),它表示在状
s 下
取最 的那个 作而 得的最大的累 回 。因此在最 策略
π * 下,状
s 的
最 定 :
*
V (s) = max E {r t+1+γ V(st+1)|st=s}
a
A ( s)
= max
Pssa [ Rssa γV
π
(s’)]
( 3)
a
A( s)
s
各种算法的最 目的便是 算各状 的最 ,并根据最 去指 作。
二. 典的 化学 算法回 :
划算法【 1】:
划的思想,根据 2 式去不断由 V(s’)估 V(s) 的 ,估 完成后下一次可以
最 的 作, 迭代到一定程度后算法收 ,每个 V(s) 都会收 到一个 定 ,从而学 到一个最 的策略。
用公式表示 :
π
V k+1 (s)=E
{R t |st =s}
π
=E
{r t+1+γ
文档评论(0)