基于Hadoop的基因大数据序列比对算法研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:xl122700059
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因是承载着生命体特定遗传信息的核苷酸序列,当其产生突变或变异后就会导致各种癌症或遗传病的发生,因此治疗各种遗传病和癌症的实质就是破解基因的秘密。基因研究中最基础也是最重要的一步是将测定的DNA序列比对到参考基因组上,只有获得了测定序列在参考基因组上的真实位置,才能研究其变异所带来的遗传性状的改变,进而对该变异所带来的不利影响进行有针对性的治疗。但是,随着各种高通量测序技术的不断涌现,与日俱增的海量数据对当前主流比对算法无论是硬件上都是软件上都提出了极大的挑战。因此,研究并实现处理速度更快、准确率更高的基因序列比对算法显得尤为重要。本文首先研究了两种基于BWT索引的序列比对算法原理及实现,并分析了其各自的优劣势,然后研究并实现了一种新的基于Hash索引的Subread算法。本文的创新主要有两点:其一是针对Subread算法在重复序列情况下返回比对位置不完整的问题做了进一步改进及实现,提高了比对准确率;其二是利用并行化框架Hadoop实现了改进型Subread算法的并行化处理,有效提高了比对速度。本文的研究工作和主要内容如下:(1)研究并实现了参考基因组二进制压缩方案,成功将参考基因组的占用空间降低为原来的四分之一大小,而且压缩后的参考基因组保留了原参考基因组的全部信息,能够进行无损还原。(2)研究了目前两种基于BWT索引的序列比对算法原理,并分别对其进行了实现,最后从灵敏度、准确性、内存占用和时间消耗四个方面对两种算法的性能进行了测试,并分析了其各自的优劣势。(3)重点研究并实现了基于种子投票策略的Subread序列比对算法,并将其与两种基于BWT索引的序列比对算法进行了性能测试及对比分析;最后针对Subread算法在重复序列情况下返回比对位置不完整的问题做了进一步的改进及实现,并对改进前与改进后的Subread算法进行了性能测试及对比分析,重点分析了改进前与改进后算法的准确性。(4)研究了改进型Subread序列比对算法的集群并行化方案,并在Hadoop平台下对其进行了实现,最后对并行前和并行后的改进型Subread算法进行了性能测试及分析,重点分析了并行化前与并行化后的时间消耗等。
其他文献
随着现代科技的飞速发展,身份识别技术在我们日常生活和工作中扮演着越来越重要的角色,生物识别技术因其独特的优势而被广泛应用在身份识别技术中。根据国际生物识别小组的20
在城镇化和工业经济发展的驱动下,我国耕地资源在数量和质量保护以及综合生产能力提升等方面所面临的压力越来越大。同时,自然条件和社会经济生产背景的分异,也导致了区域耕
经过近二十年的高速发展,中国钢铁行业产钢量已从1990年的6635万吨,到2008年的50091万吨(相当于日本的4倍,美国的5倍,德国的11倍),产能的快速扩张带来了行业间的激烈竞争。钢
通过添加新的连接词Δ,在G?del n值命题逻辑系统中,给出了公式的条件真度的定义,并验证了在该系统下条件真度的一些基本性质,并在此基础上建立了度量空间.接着,在增加了Δ算
在新科技革命的时代背景下,创新是一个国家、民族向前发展的重要动力,知识在经济社会中的作用日益突显,而把知识转化为生产力并赋予其价值的便是企业,工业的迅速崛起为我国的
本研究从我国建筑固体废弃物再生骨料的出处及加工工艺出发,在深度分析再生粗骨料特性的基础上,进一步探讨再生粗骨料混凝土的反复利用对混凝土力学性能的影响规律及趋势,并
近年来,由维护结构引发的安全及消防事故此起彼伏,此类事故的原因多为材料耐久性能较低,而这类事故的发生直接导致人们的生活将时刻处于危险当中。由水泥聚苯模壳作维护结构
信赖域方法一直以来都是在非线性优化问题中备受关注的一类计算方法。其研究内容包括信赖域模型的构造与相应算法的研究,常用的模型为二次模型。在二次模型的相关算法中,折线
2019年,省人大常委会机关党组在省委的坚强领导和常委会党组的直接领导下,坚持以习近平新时代中国特色社会主义思想为指导,深入学习贯彻党的十九大和十九届二中、三中、四中
期刊
保持问题是刻画算子空间上保持某种特征不变的映射,从而得出该映射的具体结构形式.一般涉及函数、关系、变换和子集等多种不变量.保持映射也有线性、可乘、可加等多种形式.算