多元统计分析多元统计分析 (28).ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用多元统计分析 第五章、判别分析第5讲、费希尔(Fisher)判别 一、Fisher判别的基本思想 Fisher判别的基本思想是投影. 将k组m维数据投影到某一个方向,使得投影后组与组之间尽可能地分开.而衡量组与组之间是否分开的方法借助于一元方差分析的思想. 利用方差分析的思想来导出判别函数,这个函数可以是线性的,也可以是一般的函数.因线性判别函数在实际应用中最方便,本节仅讨论线性判别函数的导出. 3 方向a 当m=2,k=2时,寻找方向a,使两组数据投影后在一维直线上尽可能区分开 设从总体Gt(t=1,…,k)分别抽取m维样品如下: 令a=(a1,…,am)′为m维空间的任一向量, u(x)=a′X为X向以a为法线的方向投影.上述k个组中的m维数据投影后为 每个总体的数据投影后均为一维数据.对这k组一维数据进行一元方差分析,其组间平方和为? 合并的组内平方和为其中合并的组内离差阵(或称叉积阵)A为 若k个类的均值有显著差异,则比值应充分大.利用方差分析的思想,问题化为求投影方向a,使Δ(a)达极大值,显然使Δ(a) 达极大的解a不唯一.若a使Δ(a)达极大,则Ca(C是任意不为零常数)也使Δ(·)达极大,故对a加一约束条件,即选取a使a? Aa=1.问题化为求a,使Δ(a)=a? Ba在a?Aa=1 条件下达极大. 二、线性判别函数的求法 如果a是在a? Aa=1条件下使Δ(a)=a? Ba达极大的方向,则称u(X)=a? X为典型线性判别函数. 以下利用Lagrange乘数法来求条件极值问题的解.令 (5.3.1)(5.3.1)的第一式可化为 由(5.3.1)的第一式可知,条件极值问题化为求A-1B的最大特征值和相应特征向量问题. 设A-1B的非零特征值为λ1≥λ2≥…≥ λr0>0,相应特征向量为l1,l2,…,l r0 .取a=l1 时,由(5.3.1)的第一式知:即取a=l1 时可使Δ(a)达最大,且最大值为λ1, Δ(a)的大小衡量典型判别函数u(X)=a? X的判别效果. 一般称Δ(a)=λ1为典型判别函数u(x)的判别效率.还可以定义u(x)的判别能力p1为 p1 =λ1 /(λ1+λ2+…+λr0 ) 结论5.3.1 Fisher准则下线性判别函数u(X)=aX的解a为特征方程| A-1B -λI | =0的最大特征根λ1所对应的满足l1Al1=1的特征向量l1;且相应的判别效率Δ(l1)=λ1 . 在有些问题中(如分类个数k较大或变量个数m较大时),仅用一个典型线性判别函数不能很好地区分各个总体,这时可用第二大特征值λ2对应的满足l2?Al2 =1特征向量l2 ,建立第二个典型线性判函数l2?X;如还不够,还可建立第三个典型线性判别函数l3?X;依次类推. 如果有r0个非零特征根(1≤ r0≤m),相应有r0个典型线性判别函数u1(X),…,ur0(X).这时相当于把原来m个变量综合成r0个新变量. 在实际应用中,常取前r(1≤r≤r0 )个非零特征根,并使累计判别能力(记为p(r)) p(r) =(λ1 +…+λr)/(λ1+λ2+…+λr0 )达到80%以上(这表示用这r个新变量替代m个原变量进行判别归类损失的信息不会超过20%). 三、费希尔判别准则 这样m维总体的判别问题化为r维的判别问题,一般维数降低了.由于特征向量线性无关,故r个新变量互不相关,然后对r维数据进行判别归类(比如按§5.1的距离判别准则). 具体判别归类时,首先计算r个典型变量的得分数据,然后对这组r维的新数据,可以使用不同的准则,考虑不同的假定(如协差阵相等或不等;先验概率相等或不等)进行判别归类. 简例1 :记二维正态总体N2(?(i),? )为Gi(i=1,2)(两总体协差阵相同),已知来自Gi(i=1,2)的样本数据阵为 求:(1) 试求组间离差阵B; (2) 试用Fisher 准则对样品x0 =(2,8) ′进行判别归类. 解 (1) 由简例1提供的数据,可得 AB与BA有相同的非零特征值有相同的特征根 典型线性函数为u(X)=-0.1091X1+0.2182X2 因两总体协差阵相同,计算阈值为判X∈G1,当u(X) >1.47285判X∈G2,当u(X) ≤1.47285对x0 =(2,8) ′,经计算可得 u(x0 )=-0.1091×2+ 0.2182× 8=1.5274因u(x0 )1.47285,故判x0属G1类. 小结Fisher判别的基本思想是投影.步骤:1、由训练样本求出组内离差阵

您可能关注的文档

文档评论(0)

职教中心 + 关注
实名认证
内容提供者

学高为师,身正为范!

1亿VIP精品文档

相关文档