基于长读数和重比对的结构变异检测方法研究

来源 :河南理工大学 | 被引量 : 0次 | 上传用户:qhjiso
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因中普遍存在结构变异,一些结构变异的发生会产生重大的基因型疾病,这对人类的健康来说是一个巨大的威胁。为了有效治疗这些基因型疾病,最关键的一步是准确检测相应的结构变异类型和位置。常见的结构变异有插入、缺失、倒位和串联重复。其中倒位和缺失检测是结构变异研究中两个重要而又复杂的问题,目前的研究并未取得令人满意的结果。长读数测序技术的出现,弥补下一代测序技术产生的双端读数长度短的不足,为发生在重复区的结构变异检测研究奠定基础。本文基于第三代测序技术产生的长读数,利用长读数异常比对结果检测结构变异中发生倒位和缺失位置。本文的主要研究工作如下:(1)本文提出一种基于长读数和重比对的倒位变异检测方法,目的是提高倒位变异检测的准确性。首先,该方法将长读数和参考基因序列的比对结果文件作为输入数据,从比对文件中提取长读数比对信息和发生剪切的部分序列,即剪切读数,并根据每条长读数比对信息中剪切的次数,分为双端剪切读数和一端剪切读数。其次,该方法使用比对工具将剪切读数重比对到一个参考基因序列上,产生剪切读数比对文件。再次,该方法根据长读数和剪切读数之间的比对位置关系确定长读数来自参考基因序列的正链或负链(互补链),并依据发生剪切的长读数比对信息、正负链信息以及剪切读数的比对信息确定倒位变异发生的断点位置。最后,该方法对收集到的断点位置进行聚类,并从每个类中选出最优的倒位变异位置。实验表明,本方法提高了倒位检测的准确性和召回率。(2)本文提出一种基于长读数和重比对的缺失变异检测方法,目的是能够准确地检测缺失发生的位置。首先,该方法根据长读数比对结果提取一端发生剪切的长读数信息和发生剪切的部分序列。其次,该方法使用长读数比对工具NGMLR将参考基因序列与剪切部分序列进行比对,得到一个比对文件。由于剪切部分序列与长读数相比,长度比较短,容易比对到多个位置,产生假阳性的检测结果,因此,先根据长读数的比对结果确定缺失位置,对于未能完全检测出缺失位置,再根据其剪切部分序列的比对结果进行另一端位置的检测。最后,该方法对收集到的断点位置进行聚类,并从每个类中选出最优的缺失变异位置。实验表明,本方法对缺失长度大于1000bp的检测效果较好。图17幅,表16个,参考文献86篇。
其他文献
在信息技术快速发展的今天,数字图像处理广泛应用于多媒体和计算机视觉等领域,人们对图像特征编辑和视觉呈现效果的要求日益提高,其中结构纹理和颜色特征的提取都离不开图像滤波。对于结构纹理分解,滤波可以用于提取主要结构特征和细节纹理特征,帮助计算机理解图像,并应用到边缘检测、图像合成和纹理增强等方面;对于颜色特征,图像重着色问题是数字图像处理领域新兴的研究问题之一,能够准确改变图像整体或局部的颜色,是目前
学位
期刊
随着移动智能设备的普及和5G技术的兴起,以抖音、快手等为代表的新型社交网络应用的流行催生了社交网络发展的又一波高潮。影响力最大化作为社交网络研究领域的重要研究内容之一,一直备受关注。影响力最大化旨在大型社交网络上找到一组具有影响力的节点,这些节点在传播模型下能使信息传播范围最大。影响力最大化可以在市场营销、交通管制、谣言抑制等领域获得应用。事实上,影响力的传播与时间因素密切相关,主要体现在两点:一
学位
二十一世纪以来,移动互联网的快速发展,使得移动通信业务处于爆炸式增长的状态,因此未来移动网络在系统容量、可靠性和时效性方面都面临巨大的挑战。作为无线通信技术核心之一,协作大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)技术在数据传输安全性、通信网络传输速率和频谱效率等方面具有很大的优势。本文主要针对不同场景下,对协作3D(three dimensiona
学位
太阳能光伏/光热综合利用技术(Photovoltaic/thermal,PV/T)是将独立的光伏组件与集热模块相结合,通过空气、水等冷却工质吸收光伏电池的热量以提高组件的电能输出,其光电光热一体化的设计方案具有高效率、多功能、低成本等优势。然而受到地理位置、环境因素等条件的影响,PV/T技术在使用过程中也存在不足。例如,水冷型PV/T集热器铜管内的存水在冬季低温环境中易结冰,从而导致管路或集热器损
学位
DNA密码多以DNA分子为信息载体,生物学技术为实现工具,实现基于DNA技术的密码运算方法。为了提高算法计算安全性,DNA密码还通过执行编码映射、碱基计算以及混淆编码表等混淆映射的操作来实现信息加密。本文通过设计DNA逻辑计算模型和混淆映射方法,结合分子信标以及DNA存储技术,对基于DNA的一次一密密码算法的设计和实现进行了深入研究,具体内容如下:(1)为了挖掘计算并行性强大的新型DNA逻辑模型并
学位
情感识别作为人工智能的一个关键领域,不仅为人机交互的发展提供了技术支持,也能够帮助医生实时监测患者的心理状态。脑电图(Electroencephalogram,EEG)记录了大脑活动时的脑电波,这些脑电波蕴含着大量情感信息,能反映出人们真实的情感体验。近年来,深度学习理论逐渐成熟,在传统问题解决上也取得了巨大成功,因此,基于深度学习的EEG情感分类任务受到了越来越多研究者的关注。目前研究者已经提出
学位
以YOLOv3为代表的单阶段目标检测算法因具有较快的检测速度和较为均衡的检测精度深受研究者的喜爱。YOLOv3算法使用深度卷积神经网络提取和识别被检测图像中的特征数据,算法中的损失函数依据提取到的特征数据不断的对模型进行训练和优化,以便找到一组可拟合图像部分特征规律的网络参数,使模型在检测过程中可以通过对网络参数的推导得到和图像中目标真实标签相接近的网络输出。由于损失函数可以提升网络输出的预测值与
学位
随着智能移动终端和空间定位技术的快速发展,基于位置的服务(Location Based Services,LBS)在移动社交网络中得到广泛应用,LBS为人们的日常生活提供了众多便利,但同时也增加了用户位置隐私泄露的风险。由于第三方服务器可以通过LBS对移动用户位置轨迹进行一系列的收集、分析和传播,对用户的位置隐私安全造成威胁,所以在此基础上保护移动用户位置轨迹隐私安全尤为重要。本文通过研究轨迹隐私
学位
学位