- 1、本文档共50页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DNA序列分类模型
DNA序列分类模型
摘要
本文分析了已知类别的人工DNA序列的特征,建立了聚类分析延拓模型和马尔可夫模型,分别对未知类别的人工DNA序列和自然序列进行分类,根据分类效果选出了较优模型。
首先对数据进行预处理,得到人工DNA序列的单个碱基丰度和不同碱基丰度之比等特征量,进而分析A、B两类的差异,得到合适的特征判定条件对未知类别的DNA序列进行分类。计算人工DNA序列的特征量,给出各序列的统计数据。
其次用聚类分析延拓模型进行分类。用A、B两类具有明显差异的特征作为样品特征变量,得到欧式空间中表征编号1-20人工DNA序列的特征向量,计算两两之间的Lance和Williams距离进行相似性度量,逐步选择相似性较大的归为一类,同时不断更新类内的标准比较特征向量,对聚类方法进行延拓,最终得到类内差异小、类间差异大的A、B两类,建立了聚类分析延拓模型。再对选取的特征变量进行改进,提高模型的分类效果。最后,借助均值、方差和相关系数等参数对改进模型的分类效果进行分析。
再次用马尔可夫模型进行分类。将DNA序列看成是马尔可夫链,求出编号1-10和11-20人工DNA序列在已知当前碱基种类的条件下,下一个碱基出现任一种的概率,结果存入概率转移矩阵1和2,再利用矩阵1和2分别求出编号1-20中任一条DNA序列出现的概率,选择较大的一个作为该DNA序列的分类,建立马尔可夫模型。再进行与聚类分析延拓模型类似的改进和检验工作,然后对编号21-40人工DNA序列和182条自然序列进行分类,得到最终结果。
最后,用层次分析法综合评价模型一与模型二,选择聚类分析延拓模型作为最终模型,其分类结果作为最终结果,具体如下:
编号21-40人工DNA序列中属于A类的样品编号为:22,23,25,27,29, 30,34,35,36,37,39;属于B类的样品编号为:21,24,26,28,31,32,33,38,40。
182条自然序列中,属于B类的样品编号为:7,10,12,22,23,24,26,28,30,34,43,48,50,54,57,65,75,76,80,84,85,86,92,98,103,107,110,114,116,119,121,122,123,127,128,129,130,131,137,138,140,142,143,144,146,151,156,159,161,162,163,166,168,170,173,174,175,179,180,181,182;其余为A类。
关键词 DNA序列分类 聚类分析延拓法 Lance和Williams距离 马尔可夫法
一、问题重述
1.1题目背景
(1)2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
(2)这本 “天书”是由4个字符A,T,C,G按一定顺序排成的无间隔的长约30亿的序列,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少。因此,破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
(3)为解读这部“天书”,首先要研究DNA全序列具有什么结构,以及由这4个字符排成的看似随机的序列中隐藏着什么规律,这也是生物信息学最重要的课题。
1.2题目信息
(1)DNA序列分为编码区与非编码区。编码区是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
(2)在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
(3)利用统计的方法还发现序列的某些片段之间具有相关性。
这些发现说明DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列有十分重要的意义。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
1.3题目要求
(1)有20个已知类别的人工制造的DNA序列(见附件1),其中序列标号1—10 为A类,11-20为B类。从中提取特征,构造分类方法,并用这些已知类别的序列,衡量所选分类方法是否足够好。
(2)用(1)中的分类方法对另外20个未标明类别的人工序列(见附件1,标号21—40)进行分类,根据分类效果对方法不断完善,将得到的最终结果用序号(按从小到大的顺序)标明它们的类别(A类或B类,无法分类的不写入)。
要求详细描述所选的分类方法,给出计算程序。若论文中部分地使用了现成的分类方法,应将方法名称准确注明。
您可能关注的文档
- “班级心理委员”模式的实践与探索台州市学校心理健教育综合分析.doc
- “太阳能跟踪系统追日装置”的整体构造研究设计.doc
- 2MW风电逆变器研究设计与制作.doc
- 5中原工学院本科毕业设计论文简明指导手册全篇汇总.doc
- 12V5A直流开关电 源整体构造研究设计毕业 设计.doc
- 110kV变电站一次部分研究设计与制作.doc
- 146低温送风空调系统气流组织的模拟综合分析说明.doc
- Application机械类英语文献翻译稿基于事例推理的夹具研究设计与制作.doc
- euavxoc转速开环变频调速综合分析说明.doc
- HW独立学院教师绩效评价体系综合分析说明.doc
- 2024年05月山东交通职业学院招考聘用博士研究生50人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月安徽芜湖市弋江区老年学校(大学)工作人员特设岗位公开招聘2人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东东营河口区教育类事业单位招考聘用22人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东交通职业学院招考聘用100人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东威海职业学院招考聘用高层次人才2人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月安徽石台县事业单位工作人员33人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东滨州市博兴县事业单位公开招聘考察笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月安徽蚌埠固镇县湖沟镇选聘村级后备干部7人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东省安丘市教育和体育局所属事业单位学校公开2024年招考232名工作人员笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东临沂临港经济开发区工作人员(5人)笔试历年典型题及考点剖析附带答案含详解.docx
文档评论(0)