基于密度峰值算法的拷贝数变异检测

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:guogangw1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
拷贝数变异是人类基因组研究中一种常见的结构变异类型,它由于发生基因组重新排列导致了许多重大疾病,如:肺癌、白血病和心血管疾病等,对人类复杂疾病的研究具有重要的生物学意义。拷贝数变异检测是复杂疾病医学研究中拷贝数变异系统分析的重要步骤,其检测结果的准确性直接决定了该类疾病临床诊断的可靠性和基因治疗策略的安全性。因此,拷贝数变异检测最关键的任务是提高检测结果的准确率和灵敏度。第二代测序平台的最新发展给在碱基水平分辨率检测拷贝数变异提供了前所未有的机会,然而由于第二代测序数据的内在特性,准确检测拷贝数变异仍然是一项具有挑战性的任务。目前,已经涌现出许多拷贝数变异检测算法,但它们大多从基因组数据的全局角度来建立模型,因此可能会忽视一些局部区域的拷贝数变异,并且在检测较高覆盖深度的测序数据时表现不佳。通过分析现有算法的不足并结合拷贝数变异的特征,本文提出了一种基于密度峰值算法的拷贝数变异检测方法dpCNV。dpCNV方法的检测流程如下:首先,利用一个数据分割算法对测序数据进行去噪,再从去噪后的数据中提取两个特征,即局部密度和最小距离,组成二维数据;然后,基于此二维数据建立二维零分布来评估每个数据点的变异显著性,并将显著的数据点判定为拷贝数变异区域。dpCNV方法的创新点有:(1)基于密度峰值算法从测序数据中提取出两个重要特征并组成二维数据,使得局部区域的拷贝数变异片段更容易被检测到。(2)基于此二维数据建立二维零分布来判断哪些区域发生拷贝数变异,使得判断结果更加客观、可靠。本文在两种仿真方法的数据集上分别测试了dpCNV方法的性能,并调整最优参数与几种现有方法进行比较。实验结果表明,dpCNV方法在灵敏度和F1-值方面优于其它方法,并且在覆盖深度高的数据中表现优异。为了进一步检验dpCNV方法的实用性,本文将其应用于三组来自EGA数据库的肿瘤测序样本,以重叠密度分数为指标与现有方法作比较。结果显示dpCNV方法在其中两组数据中位列第一,在另一组数据中排名第二,验证了dpCNV方法的有效性。我们期望dpCNV方法可以作为现有方法的补充,并有望成为基因组突变分析领域的常规工具。
其他文献
图像信息的获取与感知是计算机视觉的基础,也是模式识别与人工智能等领域的研究热点问题之一。随着传感技术和计算技术的发展,二维图像信息难以满足生产和生活需要,亟需研究三维深度信息的获取技术和方法。双目立体匹配算法是从二维图像中获取深度信息的重要技术,相比于激光雷达、结构光等接触式测量方式具有设备成本低、稳定性高、易于部署等优点。然而,双目立体匹配任务中仍存在众多问题:由于弱纹理区域与遮挡区域匹配信息缺
学位
本论文制备了一种莫来石-氧化铝复合连续纤维,得到的纤维制品既具有氧化铝陶瓷纤维强度高、硬度高、耐侵蚀、耐磨损等优良性能,又改善了其脆性大、抗高温蠕变性差的缺点。我们首先通过水热技术在不同温度、pH值下制备了颗粒均匀、分散性好的γ-AlOOH,最后通过对γ-AlOOH进行烧结,得到分散均匀的α-Al2O3。以自制铝溶胶、市购硅溶胶、自制α-Al2O3分散液为原料,添加纺丝助剂,利用溶胶-凝胶法经减压
学位
AlN(氮化铝)材料具有超宽禁带宽度、高临界击穿电场强度及高热导率,在下一代高功率、高效率和耐高温电力电子器件方面具有极强的应用前景。然而,AlN材料中掺杂杂质的电离能较高,载流子浓度比较低;另外,由于AlN材料的超宽带隙,传统金属与AlN材料之间的势垒高度较高,很难在AlN上形成良好的欧姆接触,因此,AlN电子器件研制的难度较大,目前报道的AlN电子器件导通电阻很大,输出电流很小,仍处于研发早期
学位
随着“十四五”规划发布,功率器件的重要性随之增加,逐渐成为“十四五”科技兴国线路中的重中之重。作为功率器件的顶梁柱,绝缘栅双极晶体管(IGBT)器件研究与生产也越来越重要。近年来有很多科研工作者一直致力于改善IGBT的工作性能。IGBT研究目前主要存在两个方面的问题,其一是对通态性能与关断损耗之间的折衷;其二是元胞边缘容易引起电场集中,导致边缘处提前击穿耐压下降,需要进行终端保护设计。目前大多数牵
学位
当前互联网流量激增,对网络交换芯片的性能要求日益提高。网络芯片中的硬件查找技术主要用于路由查找、流表匹配,目前在查找速度、表项更新效率、可扩展性等方面仍面临着诸多挑战。因此,研究硬件查找技术,以提升网络芯片性能具有重要的现实意义。本论文工作源自国家部委项目,重点开展100 Gbps传输速率网络交换芯片中硬件查找匹配技术的研究。所实现的硬件查找器具备较低的查找延迟、较快的查找速度和较高的表项更新效率
学位
计算机和通信网络经历了重大的变化,网络设备的设计成本巨大,固定功能的硬件加速器已经逐渐无法适应网络技术的高速发展,并且由于现代网络越来越复杂以及新兴服务所要求的灵活性越来越高,这种共存方式在管理网络基础设施方面带来了极大的复杂性,不断发展的网络需求给网络设备的功能和性能带来了巨大的挑战。传统Open Flow的实现,可编程性能不足,难以实现协议无关处理的需求,这将给设备厂商和用户带来极大的不便。本
学位
生活中我们随时随地接受到各种信息,而信息通常可以抽象为有限字符组成的序列。以DNA为例,它是由A、C、G、T四种碱基有机结合构成的序列。寻找多条序列的最长公共子序列(即MLCS问题)是序列挖掘中最重要的研究方向之一,它在生物信息学、模式识别、文本分析等领域有着广泛应用。但是,在大数据时代,MLCS问题中需要研究的序列数量越来越多,长度越来越长。很多算法无法在可接受的时间内完成求解,甚至会出现内存溢
学位
近几年来市场上对便携式电子产品的需求持续上升,锂电池凭借其自身的优点在便携式电子设备中受到相当大的青睐。本文基于锂电池的基本特性和锂电池的工作原理设计了一款应用于便携设备中高精度、全集成的线性锂电池充电管理芯片,可以实现高精度、宽范围的充电电流功能。本文首先介绍了锂电池的工作原理以及比较锂电池不同的充电策略,在此基础上介绍了芯片的系统整体设计并且给出了芯片的工作参数。紧接着详细介绍了高精度线性锂电
学位
随着数字化技术逐渐应用在我们生产生活的方方面面,数字化控制系统在众多控制领域逐渐成为主流。步进电机是一种将数字步进脉冲信号转变为离散位移增量的执行元件,因转动的角度严格与输入的步进脉冲信号成正比,被广泛应用于开环数字控制系统。然而,步进电机在开环控制中存在着低频振荡、失步、过冲以及噪声大等问题,无法满足更高频率及更高控制精度的驱动要求。因此,研究高可靠性、高控制精度、高集成度、成本低的步进电机驱动
学位
随着集成电路的工艺制程进入纳米时代,芯片内集成的电路规模不断扩大,AMOLED驱动芯片得以飞速发展。芯片的整体架构变得越来越复杂,这不仅对芯片的设计提出了更高的要求,也给芯片测试带来了极大的挑战。可测性设计是在不影响芯片正常功能前提下将测试电路在设计阶段部署到芯片内,增强测试时对电路的可控性和可观察性。为了提高芯片的可靠性,缩短测试时间,可测性设计逐渐成为保证芯片质量和减少测试成本的重要测试方法。
学位