生物序列比对算法的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:anweiban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是利用现代计算技术来处理和研究生物数据的一门新型交叉学科。其中,序列比对是生物信息学中最基本的信息处理方法,对于发现核酸和蛋白质序列上的功能、结构和进化信息具有非常重要的意义。如何获得比对准确率更高、时间空间效率更好的序列比对算法是生物信息学研究的一个重要课题。本文研究了以动态规划算法为代表的全局比对算法和以Smith-Waterman算法、BLAST算法、FASTA算法为代表的局部比对算法。在对这些算法的设计思想进行研究、性能进行比较分析的基础上,提出了基于后缀树的双序列比对算法SPLSA。该算法分为三个主要步骤—建立后缀树,寻找公共子串,连接公共子串。本算法建立带后缀链的后缀树,利用后缀链可以快速定位下一后缀内结点的优势在线性时间内完成后缀树的建立;另外,后缀树本身具有易于寻找公共子串的特性,利用此后缀树可以在线性时间内完成公共子串的寻找;而公共子串连接成匹配段的过程中采用了剪枝策略,降低了算法的运行时间;采用深度扩展和广度扩展相结合的方式提高了算法比对准确性。实验结果表明,SPLSA算法在运行时间上优于Smith-Waterman算法,在比对准确率上优于BLAST算法。本文研究了目前主流的多序列比算法—渐进多序列比对算法和迭代多序列比对算法,分析了这两类算法的优缺点及适用范围。研究并实现了ClustalW渐进多序列比对算法。在对上述算法研究的基础上,实现了一个生物序列比对系统。该系统中双序列比对采用SPLSA算法,多序列比对采用ClustalW算法。除此之外,该系统还提供了文件搜索、比对结果对齐显示、比对结果保存等附加功能。
其他文献
数据挖掘(DM,Data Mining)是一个涉及多学科领域的新兴学科,其中关联规则挖掘是一个重要的研究内容。由于关联规则的挖掘对象大多包含有海量原始数据和大量项目的事务数据库,
分布式协同工作环境是允许群体成员共享和交换信息,体现分布、交互、并发、协同系统工程思想,通过相互合作来完成一项任务的计算机系统。地域分布性、异步协同性、同步协同性和流程合理性分别反映了分布式协同工作环境中业务过程的地理空间、时间空间和行为空间特点。工作流管理技术是通过调用有关信息资源和人力资源来协调业务过程中的各个环节,使之按一定的顺序执行,从而实现业务过程自动化和业务过程管理,完成业务过程目标。
计算机网络通信技术以及多媒体技术的飞速发展,为数字信息的发布和传递带来机遇的同时,也带来新的挑战。多媒体数字产品的版权保护问题已经引起人们的高度重视。数字水印技术
随着融合影像、语音和数据等多媒体信息网络技术的成熟,以及Internet的不断普及,使得网上教学获得了前所未有的强大技术支持手段。教学平台是适合校园网、通用性强的软件,提
随着中国进入老年社会,空巢老人的问题越来越受到国家的重视。为了提高对空巢老人的医疗保健服务效率,实现低成本健康监护,同时满足空巢老人心理养老的需求,EPIC实验室对机器
随着计算机与互联网技术的迅猛发展,网络评论已经成为互联网的重要组成部分,如何从这些海量评论中提取有价值的信息,正日益成为人们关注的话题。为此,设计并实现了一个网络评
流媒体的应用系统、国际标准和基础研究正成为目前产业界和科研机构密切关注的焦点。随着网络技术的飞速发展和计算机应用的广泛普及,基于网络和流媒体技术的远程教育也不断发
网络协议的安全性分析和验证是当今计算机安全领域中研究的重大课题。协议安全性分析包括非形式化和形式化两种方法,形式化方法是安全协议分析和验证的主要方法。我们以大量的
近年来,基于脉冲神经元模型的人工神经网络(Spiking NeuralNetworks,简称SNNs,我们称之为脉冲神经网络)逐渐引起了研究者的广泛关注,被誉为第三代人工神经网络。脉冲神经网络
行人重现检测是监控视频分析和识别过程中的一个十分重要的研究点,在多个领域,如智能监控、交互式游戏方面都有非常大的价值。经过研究者们不懈的努力,行人重现检测的性能有