基于图卷积网络的缺失变异检测方法研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:lhj123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因测序技术为变异检测提供了丰富的数据来源,随着测序技术发展到了第三代,变异检测的关注点也逐步转移到第三代测序数据上。与第二代相比,第三代测序数据具有测序读长超长、覆盖均匀、无GC偏好性等特点。然而,针对该数据的检测工具由于检测策略过于依赖生物统计学的相关知识,准确率(precision)高但召回率(recall)偏低,故它们实际检测到的真实变异数量低于预期,不能满足后续的研究需求,例如发现新的基因变异与疾病之间的关联、探究基因变异在推动生物遗传进化中所发挥的作用等。因此,本文的研究目的是在保证较高准确率的前提下,提高缺失变异检测的召回率,从而实现尽可能多地检测出缺失变异的目标。本文发现造成这些工具召回率偏低的深层次原因之一是它们所采用的检测策略只关注了缺失变异自身特征而忽略了变异上下游特征,以至于部分自身特征不够显著的缺失变异无法被检测到。为克服此缺陷,本文提出了一种基于图卷积网络的缺失变异检测方法,并称之为Gcn SV。本文的主要工作包括以下四点:(1)生成图数据。通过对第三代测序数据和缺失变异检测任务的深入研究,本文将测序数据的每条读段(Read)转换为一个图(Graph)。图中的每个节点代表一个小的碱基段,每条边代表碱基段之间的匹配关系。(2)构建基于图卷积的网络模型。本文在第四代图卷积公式的基础上,把邻接矩阵一分为三,并将特征矩阵与三类邻接矩阵分别做卷积之后得到的运算结果进行拼接,使得拼接结果成为当前网络层的输出。这样改进的图卷积底层逻辑实现了对邻居节点进行分类聚合的目的,进一步地提高了网络层的输出维度,利于后续的分类。(3)设计聚类算法。图节点分类得到的变异区间还需通过聚类才能输出最终的缺失变异位点。由于现有的聚类算法有着迭代用时长、聚类效果不理想、参数难以调节的缺点,针对缺失变异检测任务,本文设计了一个算法:该算法将重叠的变异区间聚类成簇,并通过事先设定的阈值筛选出有效簇,最后将有效簇的簇心认定为所求的缺失变异位点。(4)实验验证并评估了所提出的检测方法的有效性。在真实数据集(HG002、HG003、Skbr3)以及仿真数据集上,本文将Gcn SV与现有的几个检测工具(PBSV、Sniffles、Cute SV、Next SV)做了一系列对比实验。实验结果表明,本文提出的变异检测方法确实能够提高缺失变异检测的召回率和F1分数。不仅如此,Gcn SV对于不同长度的缺失变异、不同的染色体组合没有明显偏好,受到覆盖度降低的影响相对较小。
其他文献
简缩极化(Compact Polarimetric,CP)是针对目前的合成孔径雷达(SAR)系统提出的一种新的SAR极化工作模式。简缩极化在一定程度上融合了全极化和双极化的优点,有效规避了二者的缺点。与双极化相比,可以通过调节发射信号之间的相对相位来获取更加丰富的地物信息,能更好的描述地物真实形貌;同样也可以视为全极化系统不同通道间信息的线性组合,它能有效避免全极化系统在成像幅宽、系统设计等方面的
学位
相较于传统控制方法,模糊控制能够有效处理复杂系统中存在的不精确性问题,从而得到了广泛应用。随着其应用范围的不断扩大,基于模糊控制的被控系统安全性就显得尤为重要;而传统的测试方法由于无法覆盖所有输入空间,因此不能确保结论的完备性;为了将形式化验证方法引入基于模糊控制的应用验证中,保证其结论对于任意输入均成立,建立一个可复用的模糊控制器形式化模型是必不可少的工作。为此,本课题采用了形式化方法中的定理证
学位
数字电路的功能可靠是集成电路行业发展的重要基础,基于模型的验证方法被广泛应用于数字电路功能验证中。但是,目前大多数建模方法复杂度较高,所建模型难以准确表示数字电路的功能行为和时序行为,进而难以确保基于模型进行的功能验证是有效和充分的。扩展有限状态机(Extended Finite State Machine,EFSM)作为一种形式化描述模型,能够准确表征系统的动态行为,常用于各类系统的建模与验证中
学位
全源最短路径是图计算的一个典型问题,它与描述复杂系统的最基本特征量——平均路径长度的求解密切相关,这为深入研究真实的复杂网络系统的基本构造与特征量奠定了基础。不仅如此,随着人类对生产与生活效率需求的增加,有关最短路径的问题越来越成为了不同专业的研究基础,为交通运输、旅行路径选取等问题提供了有效解决办法。因此,全源最短路径问题其具有重大的理论意义和很高的实用性。尽管求解最短路径的优化算法不断涌现,但
学位
化工行业作为我国国民经济中的重要角色,其技术水平影响着国家的工业实力以及人民的生活质量。化工行业供给了汽油、柴油等我国主要能源,其产物还被作为农业、建筑以及材料工业等行业的原材料。化工行业在生产过程中不仅需要投入大量资源,还会排放大量的大气及水污染物。因此,推动化工行业地可持续发展、推进化工装置精细化和信息化建设对提升我国工业化实力、实现我国工业可持续发展有着重要意义。本文研究分析了以催化裂化装置
学位
API(Application Programming Interface)作为软件工具包、软件框架等应用程序的功能访问接口,在日常的软件开发任务中被广泛使用。当前由于很多帮助文档存在质量不高、代码示例不完整等问题,导致开发人员经常面临API使用问题。近年来,随着大数据和人工智能技术在代码搜索和推荐领域取得的研究进展,很多学者在API使用模式推荐问题上做了相关研究和探索,并取得了一系列研究成果。但
学位
基因变异普遍存在于自然界的个体中,部分基因的变异能让个体细胞出现异常进而引发疾病,如癌症、孤独症等。如今深度学习的发展日新月异,科学家们开始在生物信息学领域使用深度学习方法进行研究,进一步分析与人类疾病息息相关的基因结构变异,比如缺失变异、插入变异等。在深度学习中,随着神经网络的深度不断增加,神经网络训练时所需的数据也越来越多,但是基因结构变异在基因数据中属于小样本事件,因此变异基因的样本数据十分
学位
在编写程序中发生错误时,提供与错误相关的精准反馈可以帮助程序员更加快速地修复程序。错误定位技术作为一种常用的软件调试技术,可以通过生成一个语句怀疑度等级列表,帮助使用者快速、准确地查找程序中潜在的错误。虽然错误定位技术已有较为广泛的研究,但是大多数方法基于商业或开源项目设计,有研究表明,近40%的初学者程序不满足这些错误定位技术使用的前提条件。此外,由于初学者程序具有结构简单、形式多样的特点,使用
学位
<正>肌少症是1种骨骼肌质量、力量及躯体活动能力全身性进行性下降的疾病。骨质疏松症是以低骨量和骨微结构损坏为特点的老年性骨病,其可导致骨骼脆性增加。研究表明,老年人活动能力下降及骨折与肌力下降、肌量减少、骨量减低关系密切,肌少症与骨质疏松症共同增加老年人群骨折风险。因此有学者提出,可将肌少症和骨质疏松症并称为骨骼肌肉减少症。利用双能X线吸收仪(dual-energy X-ray absorptio
期刊
随着互联网大数据和智能机器人等领域的迅猛发展,人与人之间交互信息的作用愈发重要。城市监控、人机交互等领域都需要人与人的交互信息,以这些交互信息为基础的轨迹预测也成为越来越重要的研究课题。然而,轨迹预测还有以下几个难点:首先,不规则采样导致基站平台收集的轨迹数据时有缺失,轨迹特征与上下文关系联合不紧密;其次,行人在复杂的环境中运动,运动趋势不仅由自身运动状态主导,还会受空间地理条件限制以及周围行人的
学位