基因组重复序列空间组装性能分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:sevenzzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组学的发展颠覆了生物学研究,已完成和正在进行的基因组计划的数量正在迅速增加。新基因组的组装主要依赖于计算算法,目前已经有数十种组装算法被提出,但是因为当下的基因组测序技术存在局限性,所以没有算法是完美的。基因组组装的准确性和连续性取决于算法的性能、读取长度、测序文库插入片段的大小、读取的测序准确性以及基因组的复杂程度,因此对组装结果的性能评估是非常复杂的。由于基因组中存在大量重复序列,重复序列的组装更加困难,因此在进行组装结果评估时,重复序列空间的组装性能评估非常重要。对于长重复而言,由于测序的读取长度有限,并且长重复之间的相似度很高,有些长重复不能被完全组装,甚至基因组中的多次重复可能只会被组装出一次,因此在进行组装结果评估时,长重复的组装性能评估也很重要。为了分析新组装基因组重复序列空间的组装性能,本文提出通过将短读取尽可能均匀地比对到基因组,以计算基因组每个碱基深度的方法,来评估重复序列的组装状况,同时该方法可用于长重复的序列质量评估。在均匀计算深度之后,对于重复序列而言,若被完全组装,则重复所在位置的深度是接近基因组平均深度的,若未完全组装,则明显高于基因组平均深度。即计算得到的重复序列的深度越接近基因组平均深度,序列组装质量越高,重复序列的深度最接近基因组平均深度时整个基因组的深度最均匀,因此计算深度时以基因组深度最均匀作为目标,该问题定义为基因组深度均匀计算问题。本文首先正式定义了基因组深度均匀计算问题(GDUC)和深度均匀计算问题(DUC问题),并通过精确块覆盖问题(EBC)证明GDUC是一个NP-complete问题。然后根据杰森不等式为基因组深度均匀计算问题建立优化模型,提出局部搜索算法求解优化模型的深度,并且提出基因组重复序列组装性能评估指标DCA,将求解算法和DCA值计算实现为命令行可调用的程序,称为DCATools。关于深度的计算结果,将BEDTools和SAMtools的深度计算结果与基于DCATools的深度计算结果进行对比,从整个基因组的最大深度和方差来看,DCATools的深度计算模型在深度均匀计算方面效果显著。关于评估指标DCA,本文使用八组基因组数据分别计算DCA值和LAI值,并且对计算结果的值进行比较,表明DCA值可以有效评估重复序列空间的组装质量。对于基因组较大时程序运行内存使用紧张或不足的问题,本文提出了序列深度存储数组长度压缩的方法,该方法使用一个数组元素的空间存储多个相邻碱基的深度,值是这些碱基的深度和。如果将c个碱基的深度存储空间压缩为一个,那么序列深度存储数组的长度将压缩为原来的c分之一,c个碱基的均值表示单个碱基的深度。本文使用拟南芥和紫花苜蓿的基因组数据,分别进行了 20X、50X和100X测序深度的短读取模拟,对这些数据进行了序列深度存储数组长度压缩比为1、2、4、6、8的深度计算实验,并进行了压缩损失比较,当压缩比为2时,相对于不压缩的深度计算,准确率均在80%以上,表明该方法的压缩损失在可接受范围内。
其他文献
随着网络时代的到来,越来越多的小程序、软件层出不穷,但是在系统开发过程中,却极易出现问题,比如软件闪退、手机黑屏、功能失效等问题,这些都需要开发人员在开发中注意、在后续不断查找问题解决问题,也需要测试人员全面测试提交问题点,还需要对用户出现的问题及时反馈,只有这样才能给用户带来愉快的使用体验。Log作为记录软件使用过程中的工作日志,能够方便开发者根据日志内容查找问题原因,帮助开发者解决问题,所以本
学位
构建高效的开发管理体系,已成为众多企业的迫切需求。SR公司作为我国少有的拥有完全自主产权变速器产品的生产企业,研发投入不断增加,但由于开发管理体系缺少系统性,开发整体效率较低、成本较高、周期过长,影响到公司的市场竞争优势。因此,公司迫切需要对开发管理体系进行优化。本文基于集成产品开发(IPD)体系,针对SR公司开发管理中存在的问题,对其进行优化改进。首先,针对SR公司开发管理现状,从开发战略、开发
学位
博物馆作为一种面向大众、服务社会、适应时代的需求并且具备一定社会教育使命的建筑,国内外的学者对其研究一直维持着相对较高的热度。而情感化设计一词是由美国著名的认知心理学家唐纳德·A·诺曼提出的,诺曼教授从认知心理学角度将其分为三个不同的设计层面,分别是本能层、行为层、反思层。本能水平的设计关注的是外形,行为水平的设计关注的是操作,反思水平的设计关注的是形象和印象。根据博物馆展陈空间的特点与情感化设计
学位
近年来,VR/AR,自动驾驶和智能机器人领域的飞速发展,离不开三维场景的识别和理解任务。对于上述领域来说,识别和理解三维场景任务就像视觉系统一样,指导着机器与三维现实世界进行交互,如果视觉系统能很好的识别与理解场景,那么对后续的交互算法将带来极大的帮助。经典的场景识别和理解任务有语义分割,目标检测,实例分割等,这几个任务是对场景的不同层次的理解。语义分割是识别场景中每个点所属的语义类别,目标检测的
学位
云南省临沧市耿马傣族佤族自治县地处中国西南边陲,是我国傣族主要聚居地之一和傣文化的主要传承区之一。由于其跨境而居的地域环境和社会历史变迁等因素,至今保留着与其他傣族地区同中存异的舞蹈文化特征,具有鲜明的地域特色,是灿烂的傣民族历史文化的不可缺少的重要组成部分。笔者以耿马傣族代表性民间舞蹈“古乐舞”“蝴蝶舞”“紧那丽舞”为研究内容,对其生态环境、历史文化、原始信仰、动律形态、动作构成等进行分析,在保
学位
随着人工智能的发展,作为自然语言处理的核心任务之一的对话系统受到越来越多学者和专家的重视。近年来,智能客服、聊天机器人等智能产品繁荣发展,也体现出人们在实际生活中对智能对话系统的需求。对话系统可以分为以完成具体任务为目的的任务导向型对话系统和提供闲聊服务的非任务导向型对话系统(也叫开放域对话对话系统)。为了使机器像人一样在聊天中保持个性一致,个性信息引导的对话系统开始出现。个性信息可以分为键值对表
学位
在计算机视觉领域,特征一致性在基于学习的众多方法中有广泛的应用场景和显著的性能提升。本文通过利用特征一致性具体实现像素级场景感知任务——显著性物体检测任务和涂鸦标注语义分割任务。作为计算机视觉领域中基础且极具挑战的任务,像素级场景感知通过将场景中所有物体进行逐像素的类别标注来实现感知的目的。具体地,显著性物体检测根据显著性将图像划分为显著性物体和背景两种区域。显著性检测的结果可以应用于众多计算机视
学位
近年来伴随着社交媒体和人们的生活紧密联系在一起,衍生于社交媒体的影响者们越来越被人们关注和信任。影响者营销行业也因此得到了迅猛的发展。品牌与影响者之间在营销方面的合作成为了研究的热点。作为影响者营销的关键子任务之一,微影响者推荐也进入了其黄金发展期。现有的微影响者推荐方法大都致力于如何帮助给定品牌找到合作效果更好的微影响者,即这些工作主要关注品牌与微影响者合作时的营销效果。然而,在影响者营销中,仅
学位
体数据的可视化为物理、大气、药学等许多研究领域的学者提供了许多便利,使他们可以方便快捷的分析研究中模拟或扫描得到的数据。如何快速、实时的对三维体数据进行绘制一直是科学可视化中的一个重要研究方向,研究者们对此提出了诸如空体素跳过等许多针对性的技术。随着电子芯片计算能力的提高和并行计算的发展,计算机能达到的算力稳步提升,因此可以生成的科学数据的规模和精度亦随之提升。数据规模的提升给三维体数据绘制问题带
学位
我国当前处于经济发展方式的重要变革时期,粗放发展已过去,创新已经成为引领国民经济的第一动力。全球经济结构与产业发展都与我们正在经历的新一轮科技革命息息相关。作为一种低成本、高流动性的融资手段,股权质押近年被我国上市公司广泛使用,是获取创新投入所需的资金的一条重要渠道。我国A股市场存在的大股东与中小股东之间的冲突使股权质押可能带来一系列代理问题。研究股权质押这一行为对企业创新投入与创新效率的影响能让
学位