临床检验信息系统数据论文:面向临床检验信息系统数据挖掘的因子分析.doc

临床检验信息系统数据论文:面向临床检验信息系统数据挖掘的因子分析.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
临床检验信息系统数据论文:面向临床检验信息系统数据挖掘的因子分析

临床检验信息系统数据论文:面向临床检验信息系统数据挖掘的因子分析 摘要:针对临床检验信息系统的数据信息量大,利用率低的问题,选取大量健康女性血液生化指标数据,运用因子分析法从女性的血液生化指标TP、ALB、ALP、GLU、UA、CHOL、TG、Ca和年龄等9个指标中提取了6个互不相关的公共因子,这6个因子可以代表原始指标的85.413%信息。通过正交旋转后,6个因子的实际更意义清晰,依次反映女性的个体营养状况和肝脏合成功能、胆固醇代谢、糖代谢、骨代谢、尿酸代谢、甘油三脂代谢。分析结果表明:因子分析法定量描述生化指标之间的关系,能够为女性健康水平提供综合评价。   关键词:数据挖掘 因子分析 生化指标 正交旋转   中图分类号:R319 文献标识码:A文章编号:1007-9416(2011)05-0097-03   随着现代信息技术的迅速发展,医院临床检验系统积累了大量的数据,这些宝贵的医学信息资源对于疾病的预防和医学研究是非常有价值的。如何从这些数据中挖掘潜在的知识与规律,数据挖掘的理论和方法为我们提供了有效途径。因子分析是数据挖掘中的一个重要研究领域。因子分析法是研究原始变量的内部关系,通过寻找变量的共同因子来简化和分析变量中存在的复杂关系[1],是一种探索不易观测或不能观测的潜在因素,用有限个隐变量来解释原始变量之间相关关系的技术。女性由于具有自身生理特殊性,一生经过青春期、孕期、绝经期、老年期,在这个过程中卵巢功能逐渐衰退导致雌激素分泌量下降,临床上表现免疫系统,心血管系统、内分泌系统、神经系统,骨质疏松等症状,而这些症状可以通过血清中的一些生化指标的变化得到体现[2、3]。   本文应用因子分析法对大量临床检验信息系统数据信息的女性生化指标进行数据挖掘,寻找有高度相关关系的变量群,定量分析各属性之间的关系,找出描述系统本质特征因素,为女性预防保健和评价女性健康水平提供参考依据。   1、研究的方法   1.1 因子分析的基本原理   因子分析思想是根据相关性的大小将变量分组,使组内变量间的相关性较高,不同组的变量相关性较低。因子分析的目的是从一些错综复杂的关系问题中找出少数几个主要因子,每个因子代表原始变量间相互依赖的一种作用。这些彼此不相关的因子代替原来较多高度相关的原始随机变量,同时这些主要因子尽可能多的反映原始变量的信息[4]。   1.2 研究数据   本文收集了淮北矿工总医院2010年1-6月期间,19-97岁1159例健康女性的生化数据。采用日历7800和7600-020全自动生化仪检测。   选取女性生化指标中的总蛋白(total protein,TP),白蛋白(albumin ,ALB),碱性磷酸酶(alkaline phosphatase ,ALP),葡萄糖(glucose ,GLU),尿酸(uria acid ,UA),总胆固醇(cholesterol ,CHOL),甘油三酯(triglycried,TG),钙(calciumand ,Ca)及女性年龄9个指标,采用DPS7.05软件进行处理。   1.3 因子分析过程   (1)因子分析检验;因子分析的前提是要求原变量之间应具有较强的相关关系,否则就不能运用因子分析法。本文检验方法采用Bartlett球度和KMO检验[5]。Bartlett球度检验是假设相关系数矩阵是一个单位阵,如果统计量值比较大,且其相对应的概率值小于用户指定的显著性水平,拒绝原假设,认为适合作因子分析。反之,接受原假设,不适合作因子分析。本例Bartlett球形检验的卡方值为1909.8453 ,p=0.00010.01,拒绝原假设,适合做因子分析。KMO是通过比较相关系数和偏相关系数的大小来评估样本量是否充足,其取值范围0-1,其取值越大越好,取值越小(0.6),说明不适合做因子分析。一般KMO0.8时效果最好,本例KMO=0.6511,可进行因子分析。   的个非负的特征值,按照累计贡献率的要求,根据公式(3)所选公因子的信息量之和占总体信息量的85%确定主因子数[5],得到的特征值、贡献率和累计贡献率如表1所示。   提取6个公因子描述原变量总方差的85.413%,因而可以认为这6个因子基本反映了原变量的大部分信息。用6个公因子代替原来的9个指标,既消除了指标间的相关性,又减少了变量的维数,因子载荷矩阵见表2。   表2中可以看出第一因子中与变量TP、ALB、UA 、CHOL、TG、Ca联系较为紧密,第一因子中的一些指标与第二因子的有些为正有些为负,且载荷较大,其余因子也是如此。如果有较多的变量在多个因子上的载荷超过0.2,则不利于因子的解释,需要对因子进行旋转[4]。由于这6个因子实际意义不明显,故对因子进行旋转。   (4)因子正交旋

文档评论(0)

gz2018gz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档