北邮生物信息基础大作业报告-疾病自动诊断问题等.docxVIP

下载本文档

40
0
约5.52千字
约 10页
2017-09-24 发布于山东
举报
版权申诉

北邮生物信息基础大作业报告-疾病自动诊断问题等.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

班级 2013211124 姓名曹爽学号 2013210640疾病自动诊断问题问题分析问题中已知100个腹泻患者的20项检查指标样本，并将其作为观测向量其中xj为诊断结果值，要求据此诊断出新的腹泻病例的类型是细菌性还是病毒性。这属于模式识别中的非参数判别分类问题，一般而言需要根据观测样本提取特征，之后设计分类器并应用于新的数据的决策。非参数判别分类方法有线性分类器、非线性分类器、近邻法、人工神经网络、支持向量机等。在此我仅提出两个模型供参考。模型一：利用线性分类器。假设判别函数是线性函数，用已知的100个训练样本去估计线性判别函数的参数。在选择和提取特征时，由于这20项指标对判别的贡献程度不同，所以应该根据重要性相应加权，这一步需要利用主成分分析的方法。随后我们需要求解判别函数，这一步我们采用较为成熟的Fisher线性判别函数分析方法，通过降低维度的方式，把20维空间映射到1维空间，找到一个最合适的投影轴，使两类样本（细菌性和病毒性）在该轴上投影的交迭部分最少，从而使分类效果为最佳。当维数和样本数都比较大时（比如题中维数=20，样本数=100），可以采用贝叶斯决策规则，从而获得一种在一维空间的“最优”分类器。模型二：利用支持向量机（SVM）的方法。支持向量机是基于机器学习理论的一种新型的模式识别方法。在模式识别等领域获得了广泛的应用。其主要思想是：找到一个超平面，使得它能够尽可能多的将两类数据点正确地分开，同时使分开的两类数据点距离分类面最远（如图1.1.1）。我们采用该模型对问题进行建模。图1.1.1 最佳超平面示意图模型建立记n（这里n =100）个已知观测样本为，其中，即为问题分析中的，为了不混淆改用。为病毒性，为细菌性。当样本线性或者非线性可分时，我们要找一个最优分类面，其中，，w、b待定，满足如下条件即有，其中，满足方程的样本成为支持向量。要使两类总体到分类面的距离最大，则有于是建立SVM的数学模型如下：模型Is.t.，求得最优值对应的、，可得分类函数模型I是一个二次规划模型。下面把模型I化为其对偶问题。定义广义拉格朗日函数其中，。由Karush-Kuhn-Tucker互补条件，通过对w和b求偏导可得得代入原始拉格朗日函数得其中表示向量的内积。于是模型I可以化为模型IIs.t.解此二次规划得到最优解，从而得权重向量。由KKT互补条件知这意味着仅仅是支持向量（距离分类超平面为1）的输入点，使得为正，所有其它样本对应的均为0。选择的一个正分量，并以此计算最终的分类函数表达式如下：实际上，模型II中的是核函数的线性形式。核函数可以将原样本空间线性不可分的向量转化到高维特征空间中线性可分的向量。将模型II换成一般的核函数，可得一般的模型：模型IIIs.t.分类函数表达式：模型测试将新的测试样本代入三个模型的分类函数中，按如下规则分类：，该样本点为病毒性；，该样本点为细菌性。模型I其实已经可以较好地进行分类了，对已知样本点，支持向量机的分类方法错判率为0。模型II和模型III的计算需要较长时间，需要进行一定的优化。判断病毒是否变异问题分析题中说CDC保留了15份诺如病毒的RNA序列，现又得到了一份来自患者P的诺如病毒的RNA序列。为判断该RNA序列是否变异，需要与之前的15份RNA序列进行多重序列比对。通过序列的多重比对，可以得到一个序列家族的序列特征。当给定一个新序列时，根据序列特征，可以判断这个序列是否属于该家族。多重序列比对的最终目标是通过处理得到一个得分最高的序列对比排列，从而分析各序列之间的相似性和差异性。一般情况下是利用动态规划算法，但是对于序列条数比较多的时候往往需要大量时间。因此，可以考虑采用星形比对或树形比对等启发式方法。这类方法在绝大多数情况下计算结果接近于最优结果，但却可以大大减少计算时间，因此实际应用广泛。由于比对整条RNA序列的复杂度较大，所需时间较长，因此我们可以比对病毒关键部分的RNA序列，或者说是与致病能力相关的RNA序列，从而确定是否变异。如果是小规模变异，由于比对的序列并非整条RNA序列，也比较容易找到变异的位点。模型建立模型I：星形比对星形比对的基本思想是：在给定的若干条序列中，选择一个核心序列，通过该序列与其他序列的两两比对，形成所有序列的多重比对α，从而使得α在核心序列和任何一个其他序列方向的投影是最优的两两比对。星形比对的基本步骤如下：1. 选择核心序列；2. 计算与核心序列的两两比对；3. 逐对聚合两两比对的结果，获得多重比对。选择核心序列有两种方法：一种是尝试将每一个序列分别作为核心序列，按上述过程进行，去结果最好的一个；另一种方法是计算所有的两两比对，去下式值最大的一个算法详细叙述如下：设是k条待比对的序列。假设一直核心序列是，c介于1到k之间，则可以利用标准的动态规划算法求出