短序列比对与组装及软件并行优化研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:hanyouzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组测序是生物信息学最基本、最重要的研究领域之一。在测序的过程中,生物信息学手段是完成序列组装和比对分析的关键。第二代测序技术的出现,使个体基因组测序成为可能。但与传统测序技术相比,来自新测序平台的测序片段(称为:read)更短,测序精度和测序覆盖度更高。高通量的测序数据带来了基因组绝对数据量的巨大增加,为短序列的比对与组装算法带来了新的挑战。本文探讨了生物信息学中基于第二代测序技术的两个问题:短序列比对与短序列组装,叙述了在可变剪接分析软件AltSplice及motif识别算法的并行优化两方面的工作。本文的主要贡献如下:   1.提出了一种基于参考序列索引的高效短序列回贴(remapping)算法SRMA(Short Reads ReMapping Algorithm)。SRMA算法对参考序列压缩存储,对短序列分三段定位。在短序列与其目标区域之间允许出现不超过两个失配的情况下,可以回贴不超过72bp长的短序列。SRMA算法在确保高查全率和查准率的情况下,使用更少的内存。在实际测序数据和模拟测序数据上的测试表明,相比于其他流行的短序列回贴程序,基于此算法的程序SRMP(Short Reads ReMapping Program)在运行速度、精确性以及内存消耗上都处于领先水平;   2.提出了一种基于de Bruiin图的短序列组装算法DSSA(De novo ShortSequences AssemblyAlgorithm)。DSSA算法先对待组装数据进行比对和纠错处理,然后构造de Bruijn图进行组装。在测试数据集上的实验表明,DSSA算法在长短混合的测序数据组装方面取得了很好的组装结果,是对第二代测序技术短序列组装问题的成功尝试;   3.分析短序列回贴问题的并行处理方法,在对参考序列进行分布式散列实验的基础上,提出了适合短序列回贴问题的并行多线程方法,实现了并行多线程的SRMP程序。通过对实际测序数据及大规模模拟数据的分析得出,并行多线程的SRMP程序能够完成大规模测序数据的回贴任务;   4.对生物信息软件的并行优化方法进行了总结,归纳了生物信息学软件在并行优化方面的几种并行策略。完成了两方面的并行优化工作:   1)可变剪接分析软件AltSplice的并行优化;   2)Motif识别方面的算法分析与Weeder算法的并行优化及实现;   5.为了加强生物信息资源共享,叙述了生物信息软件在中国国家网格的集成以及网格接口设计方面的部分工作。
其他文献
随着Internet的不断发展,网络上的在线数据库越来越多,许多用户可以通过Web站点提供的查询接口来访问Web数据库中的信息,这种在Web中可通过查询接口访问的在线数据库,被称为Web数
软件开发的成败与需求的质量有紧密的关系。充分获取和理解用户的目标和需求,并采取有效的方法支持多涉众(用户、项目经理、开发人员等)间通过协商就需求达成共识,对软件开发的
在经历了主机(mainframe)时代和个人电脑(personal computer)时代后,随着嵌入式设备、无线网络等技术的蓬勃发展,信息空间与人们生活和工作的物理空间逐渐融合,普适计算这一新的
在图像分类任务中原本可以被正确分类的图片,在添加一些细微的非随机扰动后形成的新的图片却使得深度学习分类模型以高置信度分类错误。更令人沮丧的是在同一训练集的不同子集
如今是信息时代,电子商务已经逐渐成为一种主流的商务模式,全球航空客运机票已经逐渐被电子机票所取代。为了适应市场需要,各航空公司以及机票代理都纷纷研发了各自的电子购票系
学位
如今,P2P越来越成为网络计算领域中的研究热点,它被广泛地应用于网络互联技术领域,极大地提高了互联网中信息、带宽和计算资源的利用率。 P2P技术颠覆了传统的C/S信息服务模
P2P流媒体系统在过去几年里用户群急速膨胀、应用面不断拓宽。典型的P2P流媒体系统有Skype、PPLive、PPStream等,其中无论网络音频、网络视频领域均存在数十家公司激烈竞争,这
可变剪接方法是当前生物信息学领域的一种重要的研究工具,它通过调节选择不同的外显子的组合方式来搜索mRNA亚型的可能,已经成为扩展蛋白质组变体的最主要的方法。近几年里,
句法分析是自然语言处理(NLP)的重要研究任务之一。依存分析作为句法分析的一种重要方法,通常是衔接自然语言处理中词法分析与语义分析的桥梁,在自然语言处理中具有至关重要的
超分辨率图像融合就是利用同一场景的多帧有相互位移的降质图像或视频序列来重建一帧高分辨率图像的技术。它旨在突破图像硬件设备的分辨率限制,充分利用多帧图像之间的互补信息进行数据融合,弥补由于在图像获取和传输过程中导致的空间分辨率下降,进而实现更加清晰的高分辨率图像重建。它不但能够改善图像的视觉效果,而且非常便于计算机对图像进行分析、处理和识别。目前,超分辨率图像重建技术已经在遥感、军事、公共安全、计算