结合变异数据的基因组索引技术研究

被引量 : 0次 | 上传用户:xipuwa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组映射(mapping)是将由高通量测序技术产生的大量短序列数据映射到人类参考基因组的过程。Mapping系统是处理和分析生物数据的基础,对表达量分析和SNP位点预测有重要意义。索引结构是mapping系统中的重要组成部分,是进行大规模序列比对的基础。本文的主要研究目标是改进现有mapping系统索引建立模块,设计并实现新的索引生成算法,构建一个结合变异数据的新基因组索引结构。本文首先阐述序列比对和Burrows-Wheeler Transform(BWT)数据结构的基本概念。介绍基于BWT结构的索引内容,对精确比对算法进行分析和讨论,同时给出在索引生成过程中涉及到的一些重要排序算法。然后引入Hapmap数据库的变异数据,结合基因组数据提出绝对坐标轴概念。同时给出公有部分和变异部分索引文件的创建原理,包括两部分数据的具体存储格式。详细描述公有部分数据转换BWT序列的流程,分析变异部分数据的索引结构,每一个索引文件的格式内容。最后针对不同索引结构分别系统阐述相应的验证方法,展示验证结果并给出正确性分析。在此基础上给出每部分相应的比对策略,为后续大规模序列比对过程提供技术支持。综上,本文有效地将变异数据和原参考基因组数据结合起来,建立一个全新的结合变异数据的基因组索引,说明了基于BWT结构的索引建立原理,提出了mapping系统索引设计的一个新的研究思路。
其他文献
<正> 性功能障碍是男科临床常见疾患之一,是与男子不育相互影响的,然而性功能障碍中尤以阳萎多见。根据这一临床特点,笔者自1986年10月~1989年10月,采取以针刺为主治疗阳萎患
应用高速逆流色谱法分离制备了乌药叶中的黄酮类成分。以正己烷-乙酸乙酯-正丁醇-冰醋酸-水(体积比为2:4:2:1.5:6)为两相溶剂系统,在主机转速800r/min、流速2.0mL/min、检测
综合安全评估(FSA)是从国际海事组织制定相关规则新形势着手,剖析FSA评价方法的技术特征,以及在国际及我国海事机构的运用情况,提出调整立法并创新管理的紧迫性和必要性,进一步阐述
甜瓜作为喜氮作物,在生产中为了达到优质高产的目的,常常存在盲目使用无机化肥的情况,化肥的不当使用会影响到甜瓜品质的提升,也会造成一些环境污染问题,例如淋溶等。甜瓜生产中的
<正>一、说教材分析人教版四年级上册第一单元编排了《观潮》《雅鲁藏布大峡谷》《鸟的天堂》《火烧云》四篇文章。单元提示里要求:"让我们一边读课文,一边想画面,感受大自然
<正>【一般教学目标】1.给三个字注音(含"笼"字异读)。(1)缥(piāo)缈(miǎo)(2)灯笼(lóng)→箱笼(lǒng)2.解释三个词(含"珍奇"的活用)。缥缈定然珍奇3.解说本文"物品"改为
本研究以青海高原地区的优势畜种牦牛为瘤胃液供体动物,采用体外产气法进行燕麦青干草、精补料与玉树地区五种天然牧草(藏嵩草、高山嵩草-异针茅、高山嵩草、紫花针茅、高山嵩
随着我国公路建设事业的不断发展,路基施工机械化水平的大幅度提高和先进的装运、摊铺、压实机械的使用,路基填筑速度不断提高,采用传统的压实质量检测方法往往难以满足及时
【目的】鲜切生菜存在微生物安全问题,通过开展高压与温度的协同研究,以获得鲜切生菜的冷杀菌加工技术,并确定高压处理对鲜切生菜货架期微生物的影响。【方法】在5℃、15℃、
<正>一、深研教材谈分析人教版五年级下册第21课《猴王出世》是根据四大古典名著之一《西游记》第一回改编而成的。这篇课文主要讲了石猴出世和被群猴拜为猴王的故事。虽然是