结构生物信息学5-二级结构预测.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
结构生物信息学5-二级结构预测

隐含层的神经元是完成从氨基酸序列到蛋白质二级结构映射的关键,这种映射是非线性的。通过隐含层的信息处理,可以检测残基及所处环境与二级结构的复杂关系。隐含层的神经元个数一般从2个变化到几十个,隐含层的神经元越多,则神经网络对训练实例的记忆能力越强,但是神经网络的推广能力将越弱,对新蛋白质二级结构预测的准确率越低。因此,在实际应用中需要通过大量实验,选择合适的隐含层神经元个数 神经网络具有应用方便、计算能力强、预测准确率较高的特点,网络一旦训练完毕,就可以进行快速预测。目前二级结构预测识别率不高的主要因素是许多预测方法没有使用足够的进化信息和全局信息。蛋白质序列家族中氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键。 * 实际应用中最常见的综合方法是同时使用多个软件进行预测,通过分析各个软件的特点以及各个软件预测结果,最终形成二级结构一致性的预测结果。 将序列比对与二级结构预测相结合也是一种常见的综合方 该方法首先预测蛋白质的结构类型,然后根据不同结构类型蛋白质的二级结构形成规律预测新蛋白质的二级结构,并根据结构类型解释预测结果 都是建立在假定蛋白质的二级结构主要是由局部氨基酸所决定,准确率都不超过65%。随着蛋白质进化信息、长程相互作用信息及全局信息的加入,蛋白质二级结构预测的准确率有了较大的提高。 * 第一步:对于一个待预测的蛋白质,首先利用BLAST在SWISS-PROT数据库中搜索同源序列,然后再利用MaxHom程序将这些同源序列对比排列起来,并对每个比对的位置进行统计分析。 第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。这里的神经网络是一个多层的前馈网络 * 第一步:对于一个待预测的蛋白质,首先利用BLAST在SWISS-PROT数据库中搜索同源序列,然后再利用MaxHom程序将这些同源序列对比排列起来,并对每个比对的位置进行统计分析。 第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。这里的神经网络是一个多层的前馈网络 * w(缺省值为13) * 这里w=7, 其中20个数据对应于20种氨基酸,1个数据对应于“空缺”氨基酸(这使得窗口位置可以在序列的两端,蛋白质的第一个或最后一个氨基酸都可以作为窗口的中心,不存在的部分用“空缺”符号代替),2个数据分别表示多重序列比对中该位置的插入(ins)和删除(del)的次数,1个数据表示该位置的保守程度(cons) 全局数据有32个,其中20个数据表示各种氨基酸所占百分比,表示蛋白质长度的数据有4个(分别对应与4个区间,见上图中(b)),当前窗口到蛋白质N-端和C-端的距离分别有4个 * * 建立好系统的模型后(开始的时候系统仅仅是一个空壳),PHDsec对神经网络进行训练,通过训练教会神经网络如何正确地预测蛋白质二级结构。训练是一个反复的过程,要求神经网络至少能够正确处理训练数据。PHDsec的训练数据是随机选取的 另外,PHDsec通过两层神经网络的体系,加强了预测结果的校正,由此提高了对β折叠结构预测的准确性。正因为这样,PHDsec预测的准确率比较高,对二级结构预测的准确率达到72%,而且还对序列上每个位点的预测可信度给予统计分析。PHDsec是第一个预测准确率超过70%二级结构预测方法: * * * * * 首先,蛋白质序列被作为查询序列在SWISS-PROT库中搜索相似的序列。当相似的序列被找到后,一个名为MaxHom的算法被用来进行一次基于特征简图的多序列比对 * * * * * * 打开网页html 和text * 打开网页html 和text * 打开网页html 和text * 打开网页html 和text * 打开网页html 和text * * * * * * * * * * 二级结构预测软件 – TMpred 常用软件 Tmpred (信号肽): http://www.cbs.dtu.dk/services/SignalP/ 预测蛋白质的跨膜区段和在膜上的取向。 根据来自SWISS-PROT的跨膜蛋白数据库Tmbase,利用跨膜结构区段的数量、位置以及侧翼信息,通过加权打分进行预测。 Tmpred的Web界面十分简明。用户将单字符序列输入查询序列文本框,并可以指定预测时采用的跨膜螺旋疏水区的最小长度和最大长度。 输出结果包含四个部分:可能的跨膜螺旋区、相关性列表、建议的跨膜拓扑模型以及代表相同结果的图。 二级结构预测软件 – TMpred 常用软件 Tmpred (信号肽): http://www.cbs.dtu.dk/services/SignalP/ THANKS * 蛋白质二级结构是蛋白质分子中重要的组成“部件”,是研究蛋白质氨基酸序列和三级结构之间的桥梁。 * 进行二

文档评论(0)

sandaolingcrh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档