深度学习在癌症亚型诊断中的应用研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:fdgerg454h4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是全球范围内致人死亡的重要原因之一,其特点是由基因突变导致细胞异常增殖和失控。作为一种十分复杂的异质性疾病,癌症的诊断传统上主要基于组织病理学和临床特征,因此需要人工检查和临床医生精湛的专业知识,难以统一实施。尽管这些癌症诊断结果对病人的预后价值无可争议,但是由于缺乏明确的分子基础数据,其在预测抗癌药物疗效方面的效果还存在一定的提升空间。为了可以促进患者的后续治疗和个性化管理,癌症亚型的诊断和预后就成为了癌症研究的必要条件。然而,基于分子特征的癌症诊断在解释一些肿瘤异质性上存在困难,难以统一实施进而实现患者的个性化治疗。随着基因测序技术的进一步发展,基于全转录组的癌症亚型分析逐渐展示了其在剖析肿瘤异质性任务中的潜力。基因测序技术的快速发展,使得人们对基因的表达变化在癌症中的影响有了进一步的认识。基因组测序技术提供大量的高通量基因表达数据,为采用机器学习去挖掘基因表达数据提供了数据基础。机器学习工具可以从复杂数据集中挖掘其关键特征的能力为其在癌症研究中扮演重要角色提供了可能,这促使了生物信息学领域的研究人员不留余力的研究机器学习在癌症中的应用,致力于构建一个计算机机器学习模型去拟合生物数据,提供基于计算机数据挖掘技术的一些全新的生物学见解。近年来,许多基于深度学习的癌症诊断框架已经被提出,用以从高通量基因表达数据中识别癌症亚型。癌症分子亚型鉴定在患者的个体化治疗中起着关键作用。然而,现有的方法存在着数据集样本数量少、数据特征维数高、计算方法表现力不佳、以及模型训练困难等缺陷。为了解决这些问题,本课题结合了基因测序、计算机科学、深度学习、进化计算等相关技术,针对高通量基因表达数据提出了一种全新的计算方法识别癌症亚型。本文的主要贡献如下:(1)提出了一个基于癌症亚型特异性基因的深度学习模型去识别癌症亚型。该模型首先通过计算亚型特异性基因进而将高通量基因表达矩阵进行去噪,降低其特征空间维度,便于深度学习模型的训练过程快速收敛。此外,针对癌症亚型特异性基因表达矩阵数据构建了一个特定的深度学习模型去拟合癌症数据,诊断癌症亚型。实验结果显示,本文提出的这个模型可以在大肠癌上展现其优秀的性能。(2)上面提出的癌症亚型深度学习诊断模型的性能高度依赖于其神经网络架构,模型优化调整通常是一个成本较高的、过程较长的过程。为了完善癌症亚型深度学习诊断模型,降低模型设计成本,进一步地,本文提出了一个自然启发式自动深度学习机,用以从基因表达数据中诊断出癌症亚型。本文提出的自动深度学习机采用启发式群体智能算法之一的蚁群算法进行神经网络架构搜索寻优,在其搜索空间可以自动寻找在癌症诊断问题上的最优深度学习模型架构。实验结果表明,本文提出的自动深度学习机不仅可以在大肠癌数据上获得十分出色的诊断能力,在其他不同平台数据的癌症、不同类别的癌症上面都可以提供优秀的鉴别能力。(3)为了验证本文提出框架在癌症诊断中的作用,本文还对这两种癌症亚型诊断模型进行了生物学分析,提出了一些识别癌症亚型的生物学见解。实验结果显示,本文提出的这两种框架都可以优选出癌症亚型的关键性基因,可以学习到不同癌症亚型之间潜在于基因表达数据中的差异。
其他文献
知识追踪是一种通过学习者的历史学习行为实时有效地追踪学习者知识水平变化并预测学习者未来学习表现的方法。当今时代,通过大数据对学习者的知识水平进行评价的方法越来越流行,许多与此相关的知识追踪方法也涌现出来。早期国外学者基于递归神经网络深度建立知识追踪模型,利用递归神经网络应用于一系列基于时间的练习序列,以此估计学生对知识概念的掌握程度。研究发现通过在模型中融入知识点关系可以有效的提升模型性能,但是现
学位
随着互联网和信息技术的快速发展,大量的线上服务平台应运而生,电子商务、娱乐和社交媒体等平台上每天都产生海量的信息,用户希望在海量的信息中获得自己感兴趣的内容,为此各大平台纷纷为用户定制个性化的推荐系统。个性化推荐系统主要目标是分析用户喜好,在海量商品中推荐最适合用户的产品或服务,解决用户遇到的信息过载问题,吸引用户点开推荐的商品,提高平台上用户活跃度。在推荐系统中,用户对物品的浏览、点击、收藏和评
学位
核心素养是当代学生应当具备的知识、技能与态度的综合反映,是帮助学生终身学习以及快速适应社会发展的必备品格和关键能力。2022年义务教育信息科技课程标准(2022年版)正式发布,新课程标准进一步细化了核心素养,在信息技术学科中形成了特定的学科核心素养,为信息技术教师培养学生核心素养提供了更加细致、准确的提纲,为信息技术教师教学工作的开展指明了方向。但结合我国目前教育实际情况发现,当前初中信息技术课程
学位
在教育领域中,在线课程已经成为重要的教学资源,尤其在近几年的疫情时期更是发挥了不可替代的作用。然而,随着在线课程和学习者的数量急剧增长,大规模在线课程的学习与个性化的学习需求之间的矛盾日益凸显。重要原因之一在于在线课程推荐算法对个性化学习需求以及学习过程信息的利用与挖掘不够充分和深入。针对当前在线课程学习中,“大规模”与“个性化”之间的矛盾,借鉴协同过滤算法思想,引入退课向量和课程体系完整度两个重
学位
纳米酶是一种具有天然酶性质的纳米材料,与其他人工酶相比,由于纳米材料的尺寸效应和独特的理化性质,从而使其催化活性有了进一步的提升。在众多种类的纳米材料中,过渡金属硫化物纳米材料表现出了优异的类过氧化物酶活性,特别是过渡金属硫化物的典型代表FeS2被发现具有本征的类酶活性。为进一步提高该类纳米酶的催化活性以及拓展纳米酶的制备方法,本论文采用等离子体直流电弧法结合热处理技术和水热法衍生出纳米铁基硫化物
学位
体育教研员致力于推动体育教育发展,并一定程度促进体育教师的发展,在体育和教育快速发展的过程中发挥着重要的作用。在国家鼎力发展教育和体育的背景下,体育教研的发展也迎来了新时机。吉林省体育教研发展在多重阻碍中,如何切实有效的开展教研工作成为了进一步发展的关键问题。结合对以往研究的梳理总结发现,体育教研员胜任力的探索能够找寻并讨论体育教研员的胜任力特征,较为深入的审视教研工作现状,挖掘现存问题从而有针对
学位
随着时代的发展,科学技术成为第一生产力。不同于以往,新时代的科学技术发展也为教育的多维度发展带来了深刻的影响,对适应新时代的新人才的培养也给出了新的参考。科学技术旨在创新,在支持科技发展的创新思维能力中,逻辑思维能力占极为重要的地位,所以逻辑思维能力的培养应当是教育的重中之重。儿童作为国家栋梁的幼苗,是人的一生接受教育的起点,要想培养出更多的创新型人才,就应该在儿童阶段着手培养其逻辑思维能力。在需
学位
计算机技术的飞速发展,使得深度学习方法焕发了新的生机与活力,并在各个领域中都取得了相当不俗的成绩。伴随深度学习方法可以解决更多的难题,越来越多的研究者投入到利用深度学习视频内容分析领域之中。虽然目前已有的深度学习方法能在视频行为识别与视频动作定位任务上取得不俗的效果,但在视频动作分割任务中仍然有边界模糊与过度分割的问题急需解决。为了解决动作分割任务中边界模糊与过度分割的问题,本文利用视频不同尺度时
学位
外膜蛋白(Outer Membrane Protein,OMP)是跨膜蛋白的一个重要类别,对于疫苗设计、抗生素抗性以及癌症诊疗研究均有重要意义。外膜蛋白处于生物外膜特殊环境,因此,生物实验技术无法大规模解析其蛋白结构并深入探究由结构决定的生物功能。基于当前条件,采用计算手段探索克服外膜蛋白小样本问题的结构特征预测方法成为领域内研究的重要途经。拓扑结构是体现外膜蛋白家族功能的显著结构特征。拓扑结构预
学位
部分集合覆盖问题是集合覆盖问题的扩展,其目标是用尽可能少的子集覆盖至少k个集合。部分集合覆盖问题在覆盖目标或带约束的放置等问题中有着广泛的应用,并已被证明为NP难组合优化问题。随着技术的发展与进步,集合覆盖问题及其延申问题愈发得到研究者的关注,如何有效地解决这类优化问题具有重要的理论价值和现实意义。求解集合覆盖问题的方法主要分为精确算法与启发式算法。精确算法能够求出问题的最优解,但当问题规模较大时
学位