多样本复发拷贝数变异检测方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yjhsw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
拷贝数变异是一种在人类基因组中广泛存在的变异类型,它与多种人类复杂疾病密切相关。为了揭示拷贝数变异与复杂疾病之间的关系,需要检测出与疾病相关的拷贝数变异。研究表明,复发拷贝数变异更有可能与疾病相关,因此对于复发拷贝数变异的检测意义重大。目前复发拷贝数变异检测方法大致分为使用统计模型的方法和使用非统计模型的方法。前者的性能在很大程度上取决于底层的统计分布,后者则是用各种模型重建拷贝数变异的模式。这两类方法的共同点是更关注数据的数学特性,而忽略了数据所代表的生物特性。针对这个问题,本文提出两种从多样本中检测复发拷贝数变异的新方法,分别是DBSCAN-CNV和IFRCNV。DBSCAN-CNV是一种基于聚类的复发拷贝数变异检测方法,它首先提取出与复发拷贝数变异密切相关的两个特征,并将这两个特征的数值对应到二维平面上变为点,然后对这些点进行DBSCAN聚类,最后分析聚类结果,剔除代表正常位点的簇,最终得到发生复发拷贝数变异的位点。DBSCAN-CNV的特点是将数据挖掘中的聚类思想应用在计算生物信息学领域,实验表明,合适的聚类算法可以解决原始数据不平衡的问题。IFRCNV是一种基于孤立森林算法的复发拷贝数变异检测方法,它首先提取出与复发拷贝数变异密切相关的两个特征,并且把特征值相同的相邻位点进行合并。紧接着将不同强度比水平的区域拉至同一水平,然后将提取的特征作为输入建立孤立森林模型,得到每个位点的异常得分并对连续位点的异常得分进行平滑处理。最后评估异常得分来确定发生复发拷贝数变异的位点。IFRCNV的创新点是它会根据特征值将数据划分为具有不同强度比水平的区域,然后将这些不同区域处理至同一水平再进行后续操作,这样可以避免将大量正常区域因强度水平过高或过低而被误判为复发拷贝数变异区间,从而实现对复发拷贝数变异区域更精准的检测。本文将两种方法都分别应用至仿真数据和真实数据,同时与三种现有方法进行比较。本文在生成仿真数据的过程中加入了多种不同类型的噪声,尽可能模拟真实数据的特征。仿真实验结果表明,DBSCAN-CNV和IFRCNV检测复发拷贝数变异的F1-分数相较于三种现有方法都有所提高,尤其在噪声水平较高的数据中,IFRCNV表现出明显的优势。DBSCAN-CNV在肺癌和乳腺癌真实数据上检测出公开文献已报道的致病基因,IFRCNV和另一种现有方法PLA检测出许多重合的致病基因,这进一步验证了本文两种方法的有效性。
其他文献
第三代宽禁带半导体材料GaN由于具有高电子迁移率和饱和速度,以及3.4MV/cm的高击穿电场等优良特性,被认为是下一代电力电子系统中很有发展前景的功率器件材料。肖特基势垒二极管(SBD)作为GaN基器件中最为基础的元器件之一,其结构简单,在电力系统中的一部分重要组件如整流器、开关电源的转换器、逆变器以及功率因数校正系统中具有广泛的应用。得益于GaN材料的优越特性,GaN基SBD相比于传统Si基SB
学位
随着科技的快速发展,便携设备和可穿戴设备的应用越来越广泛。与此同时,整个世界趋向于万物互联,各种设备需要传感器将环境中的信息采集到处理系统中,模数转换器就充当了转换的桥梁。环境中声、光、电、热等信息都要通过模数转换器(ADC)变为可供处理的数字信号。随着5G通信技术的发展,便携式/可穿戴设备中对于模数转换器的速度和精度要求越来越高,同时还要求高能效。流水线逐次逼近型模数转换器(Pipeline S
学位
随着以电磁炮为代表的高性能装备系统朝着强电磁方向发展,强磁场环境对装备系统的影响愈发显著。数字集成电路作为装备系统的控制核心部件,对强电磁装备系统的强磁脉冲干扰十分敏感。因此,针对强磁脉冲对数字集成电路的影响展开仿真研究十分迫切。本文旨在研究强磁脉冲对数字集成电路的影响机理,以及开展数字集成电路的强磁脉冲故障注入仿真研究。主要的研究工作及成果如下:(1)基于Sentaurus TCAD仿真工具完成
学位
CO2作为岩溶作用的驱动力,在岩溶作用中起着关键作用。岩溶区特有的地上地下二元结构表明,洞穴系统作为地下空间的窗口,对其CO2及δ13CCO2研究是十分必要的。本研究对贵州绥阳麻黄洞上覆土壤空气CO2、洞穴内部和外部大气参数以及CO2浓度和δ13CCO2进行了为期12个月的监测,监测结果表明:(1)麻黄洞洞穴空气和上覆土壤空气CO2与δ13CCO2均呈现出明显的时空变化规律,表现出雨季CO2浓度高
期刊
功率半导体器件作为电力电子系统和功率集成电路的核心,其性能优劣影响着人类对能源的利用率和功率集成电路的发展。横向双扩散金属氧化物半导体场效应晶体管(LDMOS)是功率器件的一种,由于其电极位于表面,易于与外围电路集成被广泛用于高压集成电路中,击穿电压和比导通电阻的矛盾关系限制了LDMOS器件性能的提升。传统LDMOS器件的发展受到Si材料的限制,为了进一步提高功率器件的性能,研究人员将SiC替代传
学位
遗传关联数据描述遗传变异(以下简称变异)与性状间的关联关系。近期实验表明,影响性状的变异广泛分布在整个基因组上。由于基因之间往往通过相互作用行使功能,因此以基因为节点,基因间相互作用为边的基因网络对性状的研究至关重要,变异通过调控作用扰动基因,基因进一步通过连边对网络系统产生遗传扰动。全基因模型在以上背景下被提出,该模型将基因分为直接作用于性状的核心基因和通过网络连边影响核心基因,进而间接影响性状
学位
随着科技的发展和社会的进步,毫米波集成电路在移动通信、深空探测和航空遥感等军民用领域得到了广泛的应用。作为毫米波电路设计中至关重要的一环,无源器件大量应用在阻抗匹配、功率分配以及滤波等方面,其在高频下的表现关系着整个电路的性能,因此,为了满足日益增长的技术需求,有必要对应用在毫米波波段的无源器件进行研究。同时,在毫米波集成电路设计中,由于流片的时间成本和经济成本都比较高,为了缩短设计周期,提高设计
学位
在摩尔定律的指引下,集成电路性能与容量以指数级增长,使得片上多核系统逐渐取代单核处理器成为集成电路发展的必然趋势。随着核数的不断增长及性能要求的不断提高,片上系统的互连问题成为制约片上系统发展的主要因素,片上网络将分布式计算机的通信思想移植到集成电路中,采用点对点路由和分组交换技术实现数据包在网络中的发送与传输,片上网络技术的提出克服了传统总线通信中的可扩展性与可复用性差、通信效率低等问题,具有广
学位
合理地选择设计流量和如何使水泵在特征扬程变化的情况下保持较高的效率是泵站改造的关键。如果设计流量偏大,水泵内部的流速变大,空化性能下降,可能产生空蚀振动。对于扬程变幅较大的泵站,应当采用定制式设计方法为泵站专门开发高效区宽广的水力模型,提高泵站的平均效率。
期刊
抑郁症严重影响青少年健康发展,成为中国面临的一项重大公共卫生难题,新冠肺炎疫情的暴发与常态化防控更是对青少年抑郁症防治提出了严峻考验。鉴于青少年身心发展特点和抑郁症病理特征,青少年抑郁症防控工作应关口前移,应以“筛查和动态监测”作为青少年抑郁症防控关口前移的重要途径,以“群体预防”作为实现防控关口前移的重要保障,推进青少年抑郁症防控工作关口前移,筑牢青少年心理健康防护墙,改善中国青少年心理健康。
期刊