基于变量选择的支持向量机在乳腺癌预后复发诊断中的应用.doc

基于变量选择的支持向量机在乳腺癌预后复发诊断中的应用.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于变量选择的支持向量机在乳腺癌预后复发诊断中的应用 李皞 王杰彪 秦旭 (中国人民大学统计学院,北京,100872) 摘要: 本文通过支持向量机对乳腺癌预后是否复发转移进行分类,并且结合决策树,Logistic逐步回归和模拟退火算法对数据进行特征选择,在最小化集错判率的标准下,有效减少了特征变量个数,对于降低化验成本起到了令人满意的效果。 关键词: 乳腺癌;预后;支持向量机;特征选择 1 研究的目的与意义 乳腺癌是一种全身性疾病,虽然与其他恶性肿瘤比较预后较好,目前的综合治疗水平也有较大提高,但是仍存在一定概率出现复发转移,一般复发转移的时间以手术后两年内最为常见。乳腺癌复发的诊断是对该疾病长期表现的分析,早期发现复发转移灶并及时治疗,能够有效地决定后续治疗手段,有望延长病人的生存期。如利用FNA(Fine Needle Aspiration)分析乳腺组织细胞就是一种不错的选择。但是这种诊断方法成本较高,对于患者来说显然不经济。因此,本研究的目的就是寻找一种能将乳腺癌是否复发区分开来的一种统计学方法,通过对少量训练样本构建分类器,然后将其用于预测未知样本,这种方法在实际应用中有助于降低医疗分析的成本。 但是,由于样本量的限制和随机误差的影响,所构建的模型往往与真实情况会产生背离,因而会产生预测误差。那么寻找一种稳健的估计方法,使模型具有较高的泛化(generalization)能力,也就是对于未知样本能够取得较低的预测误差,是本研究的主要目标。同时,由于FNA的数据往往具有很多的成分,每一个成分可以称之为一个变量或者一个特征,在进行统计计算时,较高的维数往往会使得计算量较大甚至产生维数灾难(dimension disaster)问题。因此,在寻求最优分类器的同时要考虑降低数据维度的方法,这样不仅能减少运算时间,而且能降低检测成本,排除较次要的变量。降低数据维度可以采用特征选择(Feature Selection,FS)的方法,本文中选择了三种特征选择方法,分别是:决策树,Logistic逐步回归和模拟退火算法。 2 支持向量机和特征选择 2.1.支持向量机 支持向量机的思想起源于统计学习理论(SLT,Vapnic 1995),它通过将样本点所在的输入空间(input space)映射到同维度或更高维的特征空间(feature space,或称做Hilbert空间),以达到线性可分或者线性近似可分的目的。支持向量机基于结构风险最小化(Structural Risk Minimization,SRM)原则,而不是传统统计学的经验风险最小化(Empirical Risk Minimization,ERM)原则。支持向量机有其坚实的理论基础,实际应用中取得了良好的效果。 2.1.1结构风险最小化 机器学习的目的是针对有限的训练样本,来估计输入输出之间的依赖关系,找出一个最优的预测函数,其中是估计的最优参数,使得对未知输入达到最好的预测效果。 传统的统计学基于经验风险最小化原则,也就是说是模型拟合值与实际值的误差达到最小化。这样的一个弊病就是模型估计出的误差仅针对对于有限样本,而对于应用于未知样本的推广性误差没有一个估计。而结构风险最小化基于使期望风险最小的思想,用公式表明就是: 其中, 是经验风险,是学习器的VC维,衡量的是学习器的复杂度,或者说表达能力,n是样本量,是衡量学习机推广能力的函数,是的增函数。众所周知,一个学习器的复杂度越高,越大,它对训练样本的拟合效果越好,也就使得越小,但是这会造成过拟合的现象,使得取值变大,从而的置信上界增大,造成对未知样本的预测误差置信区间增大。这种综合考虑经验风险和学习器推广度,在经验风险与学习器复杂度之间寻找一个最好的平衡点的原则就是结构风险最小化原则。 2.1.2支持向量机的数学形式 支持向量机最初应用于二分类问题,分为线性可分、线性近似可分、非线性可分以及非线性近似可分四种情况。首先我们考察线性可分情况。 我们假定有大小为的样本集,其中,是样本的n个特征(或属性),,当样本属于第一类样本时,否则,我们的目的就是构造分类超平面: 使得 从而有 与此同时,需要得到使两类样本间隔最大的超平面以获得最大的泛化能力。因此需最大化,也就是要最小化,因此我们有以下原始最优化问题 当训练样本线性不可分时,引入松弛变量,使得通过其对最优超平面的平移,满足式子 同时,可以看作是样本分错时的代价,因此要对其进行惩罚,故引入惩罚性参数C。这样,在线性不可分时,我们有 而在实际应用中,求解这个带约束的二次规划原问题往往会产生困难,因此需要通过求解其Wald对偶问题,推导过程需要应用Lagrange乘子法,这里不再详述,只列出最后结果 其中是Lagrange乘子。这个

文档评论(0)

mx597651661 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档