癌症相关驱动基因识别方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:a111222aaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着对癌症不断的深入研究,人们越来越认识到突变在癌症演化过程中的重要性,其中对癌症的演化方向和程度有着决定性作用的驱动突变逐渐进入研究者的视野。驱动突变赋予肿瘤细胞选择优势以使细胞逃避人体免疫监控机制,从而在人体内大量分裂并逐步威胁到人体组织器官。随着人们对这种驱动机制的研究深入,逐步发现癌症细胞中突变在基因水平上的倾向分布呈现出在癌症基因上大量聚簇的现象,这种簇被叫做突变簇。同时由于肿瘤异质性的存在,以往对驱动基因的研究往往受到不同个体和相同个体内不同肿瘤细胞之间差异的影响,导致对驱动基因的识别出现大量的假阳性。然而,如果将对驱动的研究从基因水平上转移到基因集(通路)和突变簇水平上,将在一定程度克服肿瘤异质性所带来的影响。于此,本文提出了分别基于突变簇和通路水平上的驱动基因识别方法,本文的主要工作包括以下两点。(1)提出了一种基于突变簇的癌症基因识别方法(HEA)。现有的从突变簇水平上识别驱动基因的方法模型中含有相关超参数,这些超参数需要相关专家经验,算法的鲁棒性较低,同时现有的算法倾向于识别较短的突变簇,而没有意识到较长的突变簇在癌症的发展中所扮演着的重要作用。而HEA方法采用动态迭代的方法识别突变簇,HEA在识别突变簇时,不仅考虑了突变的局部位置信息,而且利用了全局突变信息。HEA方法具有大长度偏向性、高度富集性、高鲁棒性和计算高效性。对癌症基因组图谱(TCGA)中23种癌症的571个基因进行了实验,HEA总共识别出1846个突变簇,与其它突变簇识别方法(M~2C、Oncodrive CLUST和Pfam结构域)相比,在癌症富集分析中,45%的HEA癌症富集性P值集中在0~0.01区间,没有P值在0.05~1范围内;在HEA鲁棒性分析中,Spearman相关系数为0.9,鲁棒性P值接近于0;在驱动基因识别分析中,HEA、M~2C和Oncodrive CLUST识别准确率分别为率88%、77%和56%;同时对方法的时间空间开销分析表明,该方法是一种高效的驱动基因识别方法,更适合泛癌数据集的分析。(2)提出了一种基于口孵鱼算法从通路水平上识别癌症驱动基因的方法。许多基于最大权重子矩阵模型识别驱动通路的方法对于覆盖性和排他性的重视程度一样,赋予相同的权值,但是这些方法忽略了突变异质性的影响。本文方法通过主成分分析融入基因协变量数据,降低了算法复杂度,构造了一个考虑覆盖性和排他性不同权重的最大权重子矩阵模型。在一定程度上克服了突变异质性的影响。使用该方法分别对肺腺癌数据和多形成性胶质瘤数据进行实验,并与MDPFinder、Dendrix和Mutex进行对比。当通路规模为10时,本文方法识别准确度在两种数据集中均达到80%,子矩阵权重值分别为1.7和1.89,均比对比方法效果更好。同时在信号通路富集分析中,揭示了本文识别的驱动基因在癌症信号通路中扮演的重要作用,从生物作用的角度上体现出了我们识别的驱动基因的有效性。
其他文献
学位
学位
高中生的自主意识渐强、学习心理需求增大,这对教师为学生提供的帮助与支持提出了挑战。为解决教师如何提供自主支持来提高学生学习投入以促进学业成就的研究问题,本文通过文献研究、问卷调查、个案访谈等研究方法,以“浓度对盐类水解的影响”为教学案例,分别对教师自主支持与学生学习投入进行理论分析和维度区分,教师自主支持分为降低控制、提供选择、尊重情绪、建立关联这四个维度,学习投入分为学术挑战、同伴学习、师生体验
部编教材的习作有两种呈现形式。一种是每册教材中有一个习作单元,整个单元的内容都围绕习作能力来安排;另外一种是每个阅读单元的后面有一个习作,《国宝大熊猫》就是第六册第七单元中的习作。不管是哪种形式,教材编排时在每个单元的导语中都有一条直接指向习作能力的要求,也就是习作教学需要达到的目标。目标一清二楚,这样的编排还非常
期刊
随着疫情下网络教学工具在汉语直播课的推广,越来越多的孔院应用网络工具辅助线上教学质量的改善。多种网络工具的应用为提高教学互动的趣味性和教学效率提供可能性,但也为教师选择和应用网络工具带来挑战。本文以秘鲁天主教大学孔院成人班的汉语直播课中常用的网络教学工具为研究对象,结合CALL计算机辅助语言学习理论和游戏化学习理论的研究,采用调查问卷法、访谈法和课堂观察法调研了汉语直播课中网络工具在功能和应用上的
近年来网络数据愈加复杂,特别是在可供分析的数据量有限的情况下,越来越高的特征维度直接导致入侵检测的时间效率和检测精度下降。特征选择作为一种常用降维方法,已成为提升入侵检测性能的重要手段。目前单一类型的特征选择方法已无法满足检测性能要求,因此将多种方法进行混合的策略应运而生。然而混合型特征选择依然面临时间效率和检测精度改善方面的挑战。基于上述现实问题,本文提出三种混合式特征选择方案,主要研究内容和创
互联网技术正在蓬勃发展,互联网规模也在日渐扩大,其产生的海量数据给正常的网络运维带来了巨大压力。要进行异常检测、异常根因分析、流量预测等网络运维任务需要拥有完整的监控数据。假设网络中节点数为9),那么进行一次全网测量的代价为(9)~2)。这样的代价对大规模网络运维来说不可接受。已有研究表明网络数据间存在低秩性。通过借助低秩性只需要测量部分节点数据就可以推测出未测量数据。这类使用“采样-填充”架构的
新时期旅游行业的发展要求从业人员具备深度学习的能力,深度学习同时也是中职旅游管理专业人才培养的重要要求。但是,中职旅游管理专业在专业课教学中存在重教轻学,重浅层学习要求,忽略深度学习要求等问题,导致学生学习掌握水平不高、学习能力不强,难以满足行业发展的需要,同时也会影响学生后续的职业发展。因此,有必要理性审视当前中职旅游管理专业课堂教学现状,理清存在问题,关注学生真实学习需求,提出教学优化建议,落
教育信息化发展不断深化,赋予教师教学能力新的内涵。2019年,教育部发布《关于实施全国中小学教师信息技术应用能力提升工程2.0的意见》,提出全面提升教师信息化教学能力,促进信息技术与教学深度融合。由于教学对象的特殊性以及信息技术对于特殊教学的重要作用,培智学校教师更需顺应教育信息化进程,积极进行信息化教学实践,在改善学生学习的同时,促进自身专业发展。但目前学界对于特教教师,尤其是培智学校教师信息化
在线学习平台的不断发展,为国内外众多学习者提供开放且灵活的学习体验。但在线学习中通常存在辍学率较高和学习效果不佳的问题。这推动了学习数据挖掘和分析的出现——致力于借助数据挖掘技术对学习者行为数据进行多维细粒度的分析,有效识别学习模式和学习动机,并进一步探究它们对学习效果的影响,提高成绩预测的准确率。已有的学习数据挖掘与分析方法主要存在三个问题:(1)缺乏对学习者付出-收获匹配度演化模式的了解。(2