基于深度学习算法的癌症分类模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qwaer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的快速发展,生物数据的数量和维度呈爆发式增长,给传统分析方法带来了严峻的挑战。近年来,深度学习的兴起为复杂、多维的生物数据分析提供了有力工具。得益于此,与癌症相关的研究也迎来了迅猛发展。作为其中的一个重要研究方向,癌症分类对指导临床治疗意义重大。尽管越来越多的癌症分类研究开始尝试采用深度学习算法去处理大批量的测序或病理切片数据,但由于特征集种类单一和数据集内存在信息冗余等问题,没有将深度学习的应用潜力充分发挥出来,无法实现理想的分类性能。在经过对单独使用基因突变数据或者病理切片数据训练癌症分类模型的研究与对比之后,本文提出了一种基于多模态深度学习的癌症分类模型,综合使用了基因突变和病理切片两种不同模态的数据。与其它现有研究相比,本文通过四个方面的工作提升了癌症分类模型的性能,分别是:整合不同模态的数据并设计多因子神经网络来对其进行处理;引入更多与癌症类型相关的基因突变信息;使用特征选择算法过滤数据内的噪声;使用多种不同类型的分类算法训练模型并进行集成。具体来说,本文首先从TCGA和公共数据库中获取了分属于30种不同类型癌症的8,588个患者数据样本,每个样本提取了五种基因突变数据和病理切片数据。然后使用该数据集训练了多因子神经网络模型以及支持向量机、随机森林和逻辑回归这三种基于机器学习算法的分类模型。最后使用模型集成算法综合多个模型的输出,得到最终的预测结果。实验结果表明,本文提出的模型在性能上领先于现有的其它癌症分类模型,与当前表现最佳的CPEM研究相比准确率提高了约12.9%。总体而言,本文从两种模态数据整合、特征集的构建、特征选择和多模型集成四个方面提升了癌症分类模型的预测性能,为癌症分类研究提供了一种思路。
其他文献
分析了高校基层党组织政治理论学习过程中存在的主要问题,提出了改革政治理论学习制度,丰富政治理论学习形式,创新政治理论学习内容等应对措施。
期刊
目的:干眼是由于泪液的量或质或流体动力学异常引起的泪膜不稳定和/或眼表损害,从而导致眼不适症状及视功能障碍的一类疾病。在全球范围内不同人群中进行的流行病学研究发现不同年龄的干眼症患病率范围约为5%至35%以上,可显著降低病人生活质量。目前,为了治疗干眼,通过给药人工泪液来达到补充泪液的目的,为了减轻炎症而给药硫酸软骨素、谷胱甘肽、透明质酸、纤连蛋白等,但是效果仍然不足。自体血清是泪液良好的替代物,
学位
在工业生产中,基于机器视觉的表面缺陷检测是保证产品质量的重要手段之一。虽然基于监督学习的检测算法在诸多工业检测任务中取得了突出的表现,但是在许多场景下,想要获得大量带有标注的已知缺陷样本来进行学习往往是不可能的。针对许多工业场景中存在的正常样本可以大量获得而缺陷样本十分稀少,监督学习方法效果严重受限的问题,本文聚焦于各种纹理对象以及大致对齐的物件对象的无监督表面缺陷检测及定位的任务,设计了一种简单
学位
微能源系统是以分布式可控电源为支撑,聚合多种可再生能源和多类能源供应需求的微型多能联供系统。基于多能互补与能源梯级利用技术,微能源系统能够实现供能的节能高效与清洁环保,是构建新一代可持续能源电力系统的重要选择。与此同时,随着我国电力体制改革的不断推进,以市场化交易机制促进能源电力行业进一步发展亦成为必然趋势。在能源市场放松管制与能源产业变革的双重推动下,各类型能源系统逐步由物理网络的交互发展到多重
学位
肿瘤免疫疗法作为有前景的肿瘤治疗策略,面临治疗响应率不高、免疫药物在正常组织毒副作用较大的问题。结合光动力疗法(Photodynamic Therapy,PDT)和肿瘤免疫疗法能有效提高肿瘤治疗疗效。然而,当前PDT存在光敏剂靶向能力与生物相容性差、激发光源组织穿透深度有限的缺陷。基因编码光敏剂是光遗传领域中受光激活产生活性氧的一类光敏蛋白,具有无法比拟的生物相容性、组织特异性和时空可控性。本文利
学位
Fe基非晶涂层是一类兼具优异耐蚀与耐磨性能的新型表面材料,在海洋工程领域具有重要的应用前景。然而,涂层在海洋环境中服役不仅涉及腐蚀问题,还需考虑生物污损问题。目前,有关Fe基非晶涂层的生物污损性能鲜有报道,如何设计出防腐防污一体化非晶涂层是一项具有挑战的研究课题。本论文采用了超疏水涂层、注入润滑剂的光滑多孔表面(SLIPS)、水凝胶防污涂层3种不同的技术对Fe基非晶涂层进行表面改性,并系统地研究了
学位
生物传感技术的发展使人们能够定量检测与疾病和健康状况相关的生物标志物。表面等离激元共振(Surface Plasmon Resonance,SPR)生物传感器因其实时、无需标记、高分辨率以及无背景干扰等优点,现已广泛应用于基础分子生物学、药物筛选和疾病分子标志物研究当中。本文基于金-钛等离子体纳米孔阵列成像传感器,研究芯片显微成像分析的新实验检测方法,以实现在通用光学测量仪器上提高SPR生物分子传
学位
火棘(Pyracantha fortuneana(Maxim.)Li)是蔷薇科苹果亚科火棘属的一种常绿灌木或小乔木,其果实火棘果在我国野生资源丰富,拥有1700多年的药食两用历史。已报道火棘果醇提物(PFE)对高脂膳食诱导的肥胖大鼠具有显著的减肥降脂、修护肠屏障等功效,且与其富含的多酚、三萜等抗氧化成分密切相关,显示出火棘果可作为功能食品的优良开发潜力。但对PFE的主要降脂化合物及其作用途径尚缺乏
学位
多输入多输出系统(Multi-input Multi-output,MIMO)作为5G的关键基础技术,不仅可以提高信道容量,也可以提高信道的可靠性。如何在MIMO接收端进行信号检测,是MIMO系统的关键,传统的方法使用导频训练序列通过信道估计来获取信道状态信息,继而进行信号检测。然而,导频的使用降低了频谱效率,带来较大的资源消耗,削弱了 MIMO系统的好处。因此,使用盲源分离和独立成分分析的方法,
学位
蛋白质结构域是研究蛋白质进化、结构、功能的基本单元,可以作为蛋白质设计的元件,进而辅助药物设计。结构域的正确划分对于复杂蛋白质的结构预测及解析十分关键。结构域的划分通常从蛋白质三维结构出发,以人工划分为主,计算手段为辅。目前蛋白质数据库中仍存在着大量结构未知的蛋白序列,因此从序列出发进行结构域预测,能够为蛋白质结构域的研究提供有效的数据支持,对于蛋白质分类及其进化机制的研究有着重要意义。同时,蛋白
学位