主成分分析方法.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

主成分分析方法

在经济问题的研究中,我们常常会遇到影响此问题的很多变量,这些变量多且又有一定的相关性,因此我们希望从中综合出一些主要的指标,这些指标所包含的信息量又很多。这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。

那么怎样找综合指标?

主成分分析是将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标的统计方法,也是数学上处理降维的一种方法.

一.主成分分析法简介

主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。信息的大小通常用离差平方和或方差来衡量。

主成分分析的基础思想是将数据原来的p个指标作线性组合,作为新的综合指标()。其中是“信息最多”的指标,即原指标所有线性组合中使最大的组合对应的指标,称为第一主成分;为除外信息最多的指标,即且最大,称为第二主成分;依次类推。易知互不相关且方差递减。实际处理中一般只选取前几个最大的主成分(总贡献率达到85%),达到了降维的目的。

主成分的几何意义:

设有n个样品,每个样品有两个观测变量二维平面的散点图。n个样本点,无论沿着轴方向还是轴方向,都有较大的离散性,其离散程度可以用或的方差表示。当只考虑一个时,原始数据中的信息将会有较大的损失。若将坐标轴旋转一下:

且有,即是正交距阵,则n个样品在轴的离散程度最大(方差最大),变量代表了原始数据的绝大部分信息,即使不考虑,信息损失也不多。而且,不相关。只考虑时,二维降为一维。

主成分分析是一种进行信息压缩的方法。通过这种方法,可以将原来相关的若干变量,变换成不相关的变量。

二.求主成分方法步骤:

(1)对样本数据的标准化

?设有n个样品,P个指标,得到的原始资料矩阵

为了实现样本数据的标准化,应求样本数据的平均和方差。样本数据的标准化是基于数据的平均和方差进行的。因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化。

?对数据矩阵Y作标准化处理,即对每一个指标分量作标准化变换,变换公式为:

???????

其中:样本均值

样本标准差

得标准化后的数据矩阵

(2)计算相关矩阵?

?对于给定的n个样本,求样本间的相关系数。相关矩阵中的每一个元素由相应的相关系数所表示。

其中

(3)求特征值和特征向量

?设求得的相关矩阵为R,求解特征方程:

???|R-λi|=0??????

?通过求解特征方程,可得到m个特征值(i=1~m),和对应于每一个特征值的特征向量:ai=(ai1,ai2,...,aip)??i=1~m

?且有λ1≥λ2≥λ3≥λm≥0

设相应λ1的特征向量Ai=(α1i,α2i,...,αpi)??i=1~m

(4)求主成分(取线性组合)

?根据求得的m个特征向量,m个主要成分分别为:

?????F1=α11x1+α12x2+...+α1pxp

????F2=α21x1+α22x2+...+α2pxp

?????..................

????Fm=αm1x1+αm2x2+...+αmpxp

?上式就是主成分分析的模型,其通式为:

????Fi=αi1x1+αi2x2+...+αipxp????????i=1,2,...m

称为主成份,称F1是第一主成份,F2是第二主成份,Fi是第i主成份。

?求各主成份的关键是求特征根(λ)及其相应的特征向量(α)。

?主成分分析以较少的m个指标代替了原来的p个指标对系统进行分析,这给我们对系统的综合评价带来了很大的方便。

(5)定义:称为第一主成分的贡献率。这个值越大,表明第i主成分综合信息的能力越强。

称为前m个主成分的累计贡献率。表明取前几个主成分基本包含了全部测量指标所具有信息的百分率。

?保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。

?若m个主成分的累计贡献

文档评论(0)

iwen博览 + 关注
实名认证
文档贡献者

iwen博览

1亿VIP精品文档

相关文档