基于癌症组学数据网络分析的驱动基因识别算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:eva37
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症本质上与基因变异有关,目前人们普遍认为,有一小部分发生变异的基因具有选择生长优势,对癌症发生发展过程有促进作用,一般称之为驱动基因。大部分发生变异的基因对癌症发生发展没有促进作用,称之为乘客基因。在众多的乘客基因中识别驱动基因是癌症研究的热点问题。围绕这一目标,很多驱动基因识别算法应运而生,特别地,鉴于基因之间存在相互作用关系,且从网络角度可以更加系统地研究癌症特点,因此,已有很多基于网络的方法被用来挖掘癌症驱动基因。但是仍然有很多特征对驱动基因识别有影响,例如基因长度对突变概率的影响、先验知识的影响以及网络拓扑结构特征的影响等。另外,除了对单一癌症识别驱动基因外,有研究表明不同癌症之间可能存在相同的特点和致病基因。本文针对上述问题开展了系统性研究,主要工作如下:(1)提出了一种基于基因长度校正突变概率的驱动基因识别算法LNDriver,本算法考虑了基因长度对基因突变概率的影响。对于体细胞突变数据,通过广义加性模型,根据突变基因长度,对其突变概率进行校正,从而过滤由于长度过长产生的假阳性基因。然后根据蛋白质-蛋白质相互作用网络,将筛选后的基因突变数据与表达数据整合并构建二分图,最后用贪婪算法识别驱动基因。在几种不同数据上的实验结果表明,该算法对癌症驱动基因识别性能优于一些经典算法,并且能够有效减少由于基因长度导致的假阳性驱动基因。(2)针对先验蛋白质相互作用网络的不完整性以及基因表达在癌症样本和正常样本分布中的差异现象,在LNDriver算法基础上,提出了Driver Finder算法。除了考虑基因长度的影响外,本算法主要利用癌症基因表达数据构建基因共表达网络,再与已知蛋白质-蛋白质相互作用网络整合,对不同癌症构建特异性网络,避免由于先验网络不完整造成的基因信息缺失。此外,根据基因表达在癌症样本和正常样本中的分布差异,确定离群基因,最终构建二分图,利用贪婪算法识别驱动基因。在不同癌症数据集上的实验结果表明Driver Finder算法可以有效识别癌症驱动基因。(3)提出了一种基于转移偏向性的随机游走算法Driver_IRW,用来识别癌症驱动基因。在传统随机游走算法中,游走者以等概率选择下一步要访问的节点。但是在实际情况中,游走者往往具有选择偏向性,即在选择下一步访问的节点时,更偏向于选择度更大的点。此外,本算法可以根据不同癌症已知的驱动基因,利用其拓扑结构特征计算随机跳转概率。实验表明,Driver_IRW对癌症驱动基因的识别具有明显优势。(4)提出了一种基于多层网络的联合非负矩阵分解算法Driver-Mul JNMF,用来识别不同癌症中共同的致病基因。不同癌症可能存在相同的特征和致病模式,DriverMul JNMF算法针对疾病相似性较高、且较为多发的几种妇科癌症,构建了一个多层差异共表达网络,同时利用已知蛋白质-蛋白质相互作用网络信息作为约束条件,实现同时对多个网络进行分解,从而得到不同癌症中共同的模块。对模块中的基因分析表明,本算法识别出的基因可以显著富集到与所研究癌症相关的Hallmark和重要通路中,并且生存分析表明,其中包含的部分基因具有良好的预后价值。
其他文献
目的:使用决策树中分类方法的CART算法模型探讨综合医院非精神科就诊者抑郁症状阳性的危险因素。方法:根据就诊者的抑郁症状阳性得分分级,建立决策树CART模型,使用spss13.0进行
在发达国家企业如火如荼的并购浪潮中,我国企业的并购活动还处于起步阶段,特别金融公司的并购活动。这给予了我们研究并购活动,特别是金融类企业并购活动的极大研究空间。目
极化合成孔径雷达(PolSAR)是当下遥感领域最先进的传感器之一,它具备了全天候、全天时、多波段、多极化等独特的成像特质,能够提供具有高分辨率的图像。故在对PolSAR图像的后处理及其解译的过程中可以获取大量有价值的信息。尤其是极化SAR图像的分类任务,作为极化SAR图像解译的重要研究内容,已被广泛应用于地球资源勘查和军事系统领域。对极化SAR图像的分类,所应用的机器学习算法中可分为无监督、有监督
2001年6月无锡市首先推开了以医院所有权与经营权适度分离为主要内容的医院“托管制”改革”。经过5年的实践,无锡市公立医院的发展有了令全国卫生行业瞩目的成就。在此基础上
目的:上海市临床医学中心建设3年,需要一套客观、科学、量化的评估指标体系和评估方案,既体现客观规律、共性目标,又反映分类指导、个性特征.方法:本研究在文献复习基础上,借鉴
目的:探讨人性化护理在产科临床中的效果。方法:我们选取了2013年5月至2014年5月期间来我院生产的120例初产妇作为观察对象,利用计算机软件把120例患者随机分成两组,观察组和
极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,PolSAR)成像是遥感探测的重要手段,利用极化SAR图像对地物地形进行分类是SAR图像解译中的一项重要工作。近年来深度学习方法的使用使得极化SAR地物分类朝更精确和更快速的方向发展。但极化SAR数据存在典型的小样本问题,即有标记的样本非常稀少。现有深度模型的训练通常需要大量有标记样本,极化SAR数据有限
文献资源共享是人类进步的标志,是高校图书馆深化服务的基础和事业发展的必然结果。随着计算机在图书馆的广泛应用以及图书馆自动化和网络化的发展,文献资源共享的梦想将变为现
“三农”问题一直是我国各项工作的重中之重,关乎国民经济的整体健康发展和社会稳定,建立健全农村金融体系是解决“三农”问题的重要内容。在农村金融体系中,农业信贷可以为