基于概率统计方法的癌症基因组研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:hzn_arm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是一种由体细胞突变引起的复杂疾病。识别驱动癌症形成的突变是癌症基因组研究的重要目标,驱动突变的识别有利于癌症精准医学的发展。高通量测序技术和体细胞突变检测工具的飞速发展产生了大规模的癌症体细胞突变数据,然而,在体细胞突变数据中,大量随机产生的乘客突变掩盖了与癌症有因果关系的驱动突变,区分乘客突变和驱动突变是癌症基因组研究的一个重要挑战。目前,研究者们开发了多种识别驱动突变的计算方法,其主要原理是识别非沉默突变频率显著高于背景突变频率的基因组区域,但已有方法难以兼容体细胞突变的异质性,导致没有足够的检验功效区分乘客突变与驱动突变。同时,我们比较缺乏将体细胞突变数据与临床数据关联在一起的综合性工具,而这些综合性工具对癌症患者个体化治疗策略的开发是必不可少的。有效识别驱动突变的关键在于建立一个准确的背景突变模型。为此,本文提出Pro BMR模型对背景突变进行建模,Pro BMR模型是一种利用基因协变量估计背景突变速率的泊松线性混合效应模型。相比于一些经典的背景突变速率模型,如Mut Sig CV,Pro BMR模型以数据自适应方式在癌症基因组之间借用信息,更细致地解释了肿瘤突变频率的异质性。显著突变基因和互斥基因对的分析是癌症基因组研究的两大热门话题,其中背景突变的干扰导致许多方法无法成功识别驱动突变或产生假阳性结果。针对目前存在的问题,基于Pro BMR模型,本文分别提出SMGCT算法和MEHAT算法。一方面,SMGCT算法是一种采用卷积检验识别驱动基因的统计方法,在更准确的背景突变速率下,SMGCT算法比Mut Sig CV算法具有更高的检验功效,并且检测出了一些低频突变的驱动基因。另一方面,MEHAT算法是一种基于泊松多项分布识别互斥基因对的统计方法,该算法考虑了互斥特征的不对称分布,成功地避免了许多由高频突变基因主导的假阳性结果。除了一些复发性突变,目前我们比较缺乏方法系统研究癌症体细胞突变与患者生存期之间的关系。为此,我们提出SPA-Cancer算法,该算法基于Pro BMR模型将体细胞突变的影响效应累积在信号通路中,成功识别出与患者生存期显著相关的信号通路,确定了具有癌症生物学意义的稳定关联通路。
其他文献
量子密钥分发(Quantum Key Distribution,QKD)以量子态为载体,在通信端Alice和Bob间进行对称密钥分发,其安全性以量子力学规律为基础,具有可证明性,因而受到广泛关注。自BB84协议提出以来,人们提出了许多其他QKD协议,如测量设备无关(Measurement-Device-Independent-,MDI-)QKD协议、发或不发双场(Sending-or-Not-Se
近年来,视觉脑-机接口系统在技术上取得的突破充分展示出其巨大的应用潜力。如何提升视觉脑-机接口的用户体验,帮助其走向日常生活已经成为领域内的重要议题。空间编码是一种利用刺激和视觉注意目标之间的相对空间位置对目标进行编码的方法,在此前的视觉脑-机接口研究中应用较少。相较于其它基于通信原理的编码方法,空间编码更多基于大脑的空间信息加工机制实现,具有一个刺激即可编码多个目标、刺激和目标可分离等特点。这使
目前我国建筑运维期能源消耗量巨大,能耗管理却相对落后,主要针对单体建筑耗能量的监测和统计,无法支持准确的用能诊断和精细的能耗管理,更难以实现用能优化和节能控制。引入BIM、云、大数据等新技术,实现建筑运维期能耗管理的数字化和智能化,可从根本上改变其落后现状。然而基于BIM和大数据的能耗管理是以数据驱动的,需要详细、准确的数据作为支撑。而建筑能耗管理涉及各种设施设备的静态数据和海量增长的动态监测数据
在信息处理方面,量子计算机因其速度快、计算能力强和能耗低等特点,发挥着经典计算机难以媲美的优势.然而,受量子噪声的影响,量子系统在处理信息时容易引发消相干现象,导致自身的优势被削弱.为了解决这一困扰,研究者们发明了量子纠错技术.其中,好的量子码能够有效降低消相干现象出现的频率,这为修正量子误差及容错量子计算提供了必要的保障.近年来,大量工作致力于好的量子码的构造,并逐渐成为量子计算和量子通信中的热
现实世界中的信息由于受到噪声的干扰而无法准确测量,如何对连续的或离散的输入过程中的干扰噪声进行滤除以提取有用信息,或者如何在带有噪声的信号中获得关于有用信息的“最好”估计,此即为滤波。滤波理论作为估计理论中研究最为活跃的分支之一,被广泛应用于通信、定位导航、图像处理等诸多领域。根据系统是线性的或非线性的特征,可将其分为线性滤波和非线性滤波。对于一般的非线性滤波问题,如果给出了关于系统状态的后验条件
互联网由许多的自治系统组成,在目前,各自治系统间依靠边界网关协议BGP保障路由。由于BGP协议在设计之时未考虑对控制报文携带的信息进行校验,这导致了目前频繁发生的、可能产生严重后果的安全威胁——域间路由劫持。域间路由劫持通过伪造或篡改BGP控制报文携带的路由信息,吸引更多自治系统的流量,从而形成路由黑洞,监听、篡改数据流量,或者造成网络拥塞或瘫痪。为了对路由劫持进行有效防御,保障互联网通信安全,研
杀人案件是指非法剥夺他人生命的犯罪行为构成的案件,其性质恶劣且后果严重。在杀人案件侦查分析过程中,对犯罪嫌疑人的研判是十分重要的环节,包括两部分内容:一是根据案件信息确定犯罪人特征进而确定侦查方向和范围,二是在确定的侦查范围内进行嫌疑人目标关联分析,进而对可能的目标人员进行犯罪嫌疑人排查。传统的嫌疑人研判主要依赖于专家经验分析,需要投入大量人力物力。随着公安数据的积累和信息化的进程,自动化研判模型
量子密钥分发(QKD)可以为通信双方提供无条件安全的密钥,和经典密钥体系相比,QKD有着严格的数学证明来保证协议的安全性。只要按照协议要求的条件来执行QKD过程,通信双方得到的密钥就是绝对安全的。但大部分QKD协议都假设了各种理想的条件,这些条件在实际系统中往往都不能被满足。想要在实际系统中实现安全的QKD过程,就必须考虑实际系统的不完美性,给出在非理想条件下的QKD协议。例如,诱骗态方法解决了没
近来,纯有机热活化延迟荧光(TADF)材料及器件受到了学界和业界的广泛关注。尽管TADF器件已经取得了极高的效率,但是严重的效率滚降(roll-off)和过短的寿命都制约着TADF器件进一步的实际应用。如何在保证高效率的同时抑制器件的roll-off、提高器件寿命成为了一个亟待解决的问题。基于此,本论文设计合成了一系列TADF染料和主体材料,制备了相应的TADF器件,并详细地探讨了主客体及其相互作
电子器件和空间飞行器的能量密度越来越高,亟需发展高效可靠的冷却方式。另一方面,核聚变能作为新型可再生能源,是解决能源危机的重要途径。其中,实现反应堆高热流表面的高效换热是核聚变能利用中需要解决的关键问题之一。由此可见,不论是电子和空间动力设备的发展,还是新能源的开发利用,实现热量的高效传递与控制均是其中的关键环节,发展高效可靠的冷却方式迫在眉睫。喷雾冷却具有对流换热系数高和冷却均匀性好的优势,在工