面向第三代测序技术的基因组长序列片段比对算法研究

来源 :湖南师范大学 | 被引量 : 1次 | 上传用户:fever1879
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术不断发展和改进,测得的基因组序列片段数据的特征也在不断变化。为适应当前第三代测序技术,基因组序列比对算法需要进行深入的研究和改进,以便更适合于处理第三代测序技术测得的长序列片段数据。本文重点研究分析了基于哈希和窗口哈希索引定位方法的序列比对算法,包括传统的基于哈希索引的序列比对方法SSAHA(Sequence search and alignment by hashing algorithm)和改进的基于窗口哈希索引的序列比对算法rHAT(Regional hashing-based alignment tool)。在此基础上,本文进行了进一步的改进,提出了基于窗口哈希双索引表和动态定位的长序列比对算法(WHDL)。WHDL算法在参考基因组索引表构建阶段同时建立窗口全局索引表和局部索引表。全局索引表与rHAT建立的窗口索引表相同,局部索引表则是应用于比对处理阶段,以减少重复处理。WHDL算法在命中定位阶段采用动态定位的新理念,在最后比对处理阶段也提出了对应的两种不同的处理方法(WHDL-1和WHDL-2),并应用了改进的SSAHA方法(SSAHA+),降低算法的复杂度。本文对算法进行了大量测试,测试结果显示,相比rHAT算法,WHDL-1算法能进一步减少运行时间,加快比对速度,提高处理效率。本文还简要讨论了算法进行并行化处理的可行性和粒度。本文最后还探讨了采用序列相似度比较的方法进行DNA序列比对定位,也探讨了从信号与噪声的角度来理解基因组规律和基因变异,并对此进行了简要的分析。
其他文献
本论文主要包含DNA的氨基修饰和二维材料纳米孔DNA测序两部分内容。第一部分基于密度泛函理论并结合非平衡态格林函数方法,研究了腺嘌呤氨基修饰对DNA导电性的影响;第二部分采用分子动力学模拟,研究了基于二维材料纳米孔的DNA测序和甲基化识别。主要研究内容简述如下:本论文第一部分主要研究的是氨基修饰对DNA导电性的影响。由于DNA分子具有自我识别、自组装等优良特性,因而成为构建分子器件的候选材料。但是
农业智能节水灌溉系统设计中对于单片机的应用,可提升灌溉的效率,实现智能灌溉,并有着灵活性强、价格低以及抗干扰性等特征。因此,本文针对农业智能节水灌溉系统设计中单片机
2011年,教育部要求全国中小学全面开展书法教育,这既是适应社会发展需求的伟大举措,也是从宏观到微观都亟待探索和努力的蓝图设计与细节安排。
<正>在《习近平谈治国理政》第二卷的第三部分,习近平总书记围绕新时代"将改革进行到底"这一主题,进行了系统而深入的论述,着重对领导干部提出了"当改革的促进派实干家"的重
MTP副产汽油与石油路线汽油相比具有低硫低氮、辛烷值高的特点,但诱导期短、胶质含量高,组成随着MTP催化剂运行周期变化而变化,且各组分较为分散,综合利用难度大,催化裂解和
高等院校是培育高素质专业人才的摇篮,在校大学生承载着国家建设发展的未来,知名院校更是展现一座城市人文风貌的名片。近几年,受多重因素影响,在校大学生犯罪频发。浦口区检察院
报纸
<正>11月24日,仕宏拍卖有限公司举行2019年秋季拍卖会。仕宏拍卖有限公司是古董普洱拍卖翘楚。在"足吾所好──古董级普洱茶及佳茗专场"中,一筒七片百年同兴号·向质卿以远超
现代社会被称为信息社会,人们需要不断地获取各种信息,从某种意义上讲,政府是我们这个社会最大的"信息资源中心",人们有接受信息的权利和寻求获取信息的权利,大众媒体是实现
<正>近日,国家发展改革委发布《关于创新和完善促进绿色发展价格机制的意见》(以下简称《意见》)。《意见》提出了两个目标,一是到2020年,基本形成有利于绿色发展的价格机制
喀喇汗王朝是西域历史上第一个突厥语一伊斯兰政权,它的文化成就对以后突厥语一伊斯兰文化的发展有很大的影响。喀喇汗王朝的历史是中国历史特别是新疆历史的重要内容之一。但