基于主成分分析的特征提取方法研究外文翻译11.doc

基于主成分分析的特征提取方法研究外文翻译11.doc

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最新精品文档,知识共享! 本 科 生 毕 业 设 计 外 文 资 料 翻 译 题 目 基于主成分分析的特征提取方法研究 专 业 电子信息工程 班 级 084班 姓 名 童佳威 指导教师 周 扬(讲师) 所在学院 信息科技学院  附 件 1. 外文资料翻译译文; 2.外文原文 外文译文1 内核PCA算法第二部分: 快速交叉验证和近红外光谱数据分类中的应用 摘要:PCA算法,即NIPALS,电力法(电力),奇异值分解(SVD)和特征值分解(EVD),其内核版本是三个近红外数据系统地应用。交叉验证用于确定作为输入所需的线性判别分析(LDA)的PC因素。作为降维方法PCA、LDA的成功分类所有三个数据集。内核算法的速度比其相应的经典算法。四个经典的算法,SVD的是最快的。只有少数的电脑需要时,内核功率的测量方法是最快的算法。当所有的电脑是必需的,EVD是最有效的四个内核算法,应用交叉验证时,内核的EVD相比大大降低了运行时间的经典算法。为了进一步加快交叉验证,提出了两个矩阵的更新方法。正常的交叉验证过程相比,第一种方法略有提高使用正常内核EVD的交叉验证的速度。第二种方法大大加快了交叉验证,但需要修改内核的EVD算法。 1介绍 近红外光谱(NIR)已成为一种广泛使用的分析技术在制药、食品等行业。例如,在临床研究中,近红外可积极识别不同剂量的药物用于快速非破坏性测量片剂或胶囊。强大的化学计量学工具,如主成分分析(PCA)经常被用来分析近红外光谱数据[9]。在以往的工作中,我们使用的PC因素作为输入的线性判别分析(LDA)二次判别分析(QDA),正规化的判别分析(RDA)的。然而,我们发现,近红外数据PCA是缓慢的,尤其是当交叉验证用于确定因素,在分类的数目。四个经典PCA算法已被改装成快速和节省计算机内存内核-PCA的[11]在本文第一部分所述的版本。在第二部分中,内核PCA算法应用于三个工业近红外数据集应用到真实的数据时,以展示他们的效率。快速的交叉验证方法的基础上最的有利内核PCA算法被提出。 2理论 2.1符号 数据矩阵行(对象)和列p (变量)。 数据矩阵有n行和P列交叉验证步骤期间使用的变量。 临时测试集数据矩阵与行(左出的对象)和p列用于预测的变数在交叉验证步骤。 L p x r在X上获得PCA的的载荷矩阵。 S n x r 在上获得PCA的得分矩阵。 预测的得分矩阵。 U n × r异向量矩阵的行特征向量矩阵为。 2.2回顾内核PCA算法 经典PCA算法是有效的数据集,其中有多个对象比变量。对于范围内的数据,如近红外数据,变量的数目(P)是比对象的数目(n)高得多。经典的算法,然后变得很慢,需要一个大的内存空间,因为这些算法估计载荷矩阵列特征向量矩阵X'X(P X P)。当p高,规模较大的矩阵X'X。内核算法是基于矩阵XX'(N×N的)。当P >>N,矩阵XX'的规模也比较小。因此,内核算法有利于有许多变数和几个对象(P >> N)的数据集。即四个经典算法NIPALS,电力法(电力),奇异值分解(SVD)和特征值分解(EVD)被改装成自己的内核版本,在第一部分。仿真研究表明,SVD的范围内的数据,是最高效的四个经典算法,EVD是最有利的四个内核算法。内核算法给出了相同的分数,负荷和经典算法的特征值,当P> N时更快。 2.3交叉验证和更新程序 当PCA被用于降维方法的分类,交叉验证通常被用来确定的一些因素,如LDA模型。对于小规模的数据集(即lown),交叉验证(LOO)通常被应用。在同一时间作为验证对象留下一个对象。其余对象用于设置进行了PCA的培训。主成分分析后,给定数量电脑因素(npc)用于建立LDA。对象的分类结果是由PCA-LDA的模型预测。然后另一个对象被省略了上述程序。这是重复,直到所有的对象都一度被冷落。在最后,所有的对象都被列为一次,正确分类记录。为不同数量的PC因素(npc),即所谓的分类正确率(CCR)获得,最佳的个人电脑数量由最好的分类结果,即最高CCR的决定。请注意,这里不使用交叉验证树立正确的PCA模型描述的光谱数据。相反,交叉验证选择最佳数量电脑进入LDA分类模型的因素的。 对于较大规模的数据集,是非常耗时的,而且,结果不乐观。每次只有一个对象是离开n很大时,剩下的很难在设置上发生变化。因此,Loo的结果通常是过于乐观

文档评论(0)

哆啦 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档