b6-华南理工大学2015年深圳杯优秀-dna序列问题.pdf

b6-华南理工大学2015年深圳杯优秀-dna序列问题.pdf

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DNA 序列的k-mer index 问题 学 校 华南理工大学 姓名 贺煜辉,沈跃佳,谢言 目录 摘要 1 一、 问题重述 2 二、 问题分析 2 三、 模型 2 四、 符号说明 3 五、 模型建立 3 5.1、 问题分析 3 5.2、 索引算法模型 3 5.2.1、 给出哈希表相关定义3 5.2.2、 基本步骤3 5.3、 查找算法模型 4 5.3.1、 KMP 字符串匹配相关概念4 5.3.2、 主要步骤示例:5 5.4、 数据分析与算法模型优化 5 5.4.1、 每一种K-mer 出现次数分析5 5.4.2、 每类K-mer 的平均数组长度分析。6 5.4.3、 算法模型优化7 5.4.4、 算法模型流程图8 六、 模型求解10 6.1、 建立索引表的复杂度分析 10 6.1.1、 时间复杂度10 6.1.2、 空间复杂度11 6.2、 使用索引 的复杂度分析 11 6.2.1、 时间复杂度11 6.2.2、 空间复杂度11 6.3、 理论内存占用分析 12 6.4、 模型实际效果 12 6.4.1、 时间12 6.4.2、 支持k 值范围12 6.4.3、 建立索引表的时间12 七、 模型的比较与评价12 7.1、 模型的比较 12 7.1.1、 字典树 12 7.1.2、 顺序查找13 7.1.3、 各种算法模型与本模型的比较13 7.2、 模型的评价 14 7.2.1、 本模型优点14 7.2.2、 本模型缺点14 八、 文献14 附录15 DNA 序列的k-mer index 问题 摘要 DNA 序列的k-mer 的数据管理是生物信息管理中一个非常基础且重要的问题。 解决这一问题,不仅对DN 段的对比工作提供了很大的便利并且将极大的加快 各类生物信息的处理速度。 针对DNA 序列的k-mer 索引问题,此文通过对问题的深入分析以及对数据的 处理和理论推导,综合利用哈希表算法和KMP 查找算法,建立起了一套算法模型。 模型简述如下: ( ) 采用哈希表对k-mer 建立索引,当临界值 10 ≤ k ≤ 100时,用KMP 算法查 找确定具体行号和位置号。当k ≤ 临界值(10)时,用哈希查找确定行号,用KMP 算法查找确定位置号。 通过对数据的深入分析,确定了临界值等于10,因而高效地结合两种算法, 模型的索引时间复杂度、索引空间复杂度为O(n),查找时间复杂度、空间复杂度 为O(1)。 最后,用Visual Studio 2013 进行c 语言编程,将算法模型进行了实际检 验,并且与其他各种算法模型做比较,不仅验证了模型中理论推导的准确性,并 且验证了算法模型的高效性。 此模型组合了哈希表与KMP 算法,相比于字典树、普通哈希表、顺序查找等 方法,兼顾了内存占用和 速度等各个方面,具有 速度极快,内存占用量 较小,支持全部k 值,建立索引迅速的优点

您可能关注的文档

文档评论(0)

158****9376 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档