癌症进展阶段分类与泛癌样本分型技术研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:btbsh023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是威胁人类健康的重要因素之一,这类疾病治疗困难又极易复发,给患者和社会造成了巨大的负担。同时,随着高通量测序的发展以及二代测序的普及,生物医学的发展也步入了大数据的时代。众多癌症公共数据库的建立并开放获取,使得以大规模基因表达数据为基础的肿瘤生物信息学研究迅速发展。本文以基因表达数据为基础,对癌症进展阶段分类及泛癌样本分型的相关技术展开研究,主要研究内容和研究成果如下:(1)针对癌症进展阶段分类问题,本研究结合卷积神经网络与多头注意力机制,提出了一种用于处理基因表达数据的深度学习分类模型。此外,为了解决基因表达数据的高维度、异质性、噪声多、不平衡等问题,在模型训练前构建了一个数据处理流程,以获得适合模型训练的数据。实验结果表明,与对照算法相比本文模型在六个数据集中均具有最好的分类效果。(2)针对泛癌样本分型问题,本文首先提出了一种基于深度学习的特征降维模型,以获得表征能力强的特征。接下来,基于特征降维结果构建了一种泛癌样本的聚类方法,以实现对泛癌样本的分子分型。实验结果表明本文模型在泛癌样本聚类中表现出最好的性能,后续又通过生物信息学分析进一步证明了本文定义的泛癌类型具有良好的生物学意义。(3)为了进一步对癌症(包括传统癌症类型和本文定义的泛癌类型)中发挥作用的基因进行分析,本文结合Newman算法和传统K-means算法,提出了一种基因模块识别(基因聚类)算法。实验结果表明本文提出的算法具有最低的错误率,且其识别出的基因模块具有最高的生物学显著性。此外,还利用该算法识别出了泛癌类型中的基因模块,为进一步理解本文定义的泛癌类型提供了帮助。
其他文献
作为分类算法之一的k-近邻分类算法,它凭借自身的简单性和有效性被广泛应用到现实生活中。然而现实生活中的真实数据集都不可避免地包含噪声数据,这个情况会损害k-近邻分类算法的分类性能。同样的问题也出现在模糊粗糙集理论中,模糊粗糙集在计算模糊下近似时需要查找测试样本的唯一最近邻样本,这个步骤使模糊粗糙集的模糊下近似值受数据集中噪声样本的影响,并且对后续的特征选择起到负面的作用。本篇论文首先在k-近邻分类
学位
现阶段,数据的获取方式简单且多样化,在提升模型效果的同时也产生了高维数据易存在噪声样本的问题。进而使得特征选择任务和构造具有鲁棒性的分类模型成为目前的研究热点。其中,模糊粗糙集理论作为特征选择和分类模型的理论基础,已经构造出了相应的模型。传统方法由于利用单一样本间的模糊相似关系来构造模型,使得建模过程中忽略了全局的关系,并且模型存在着对噪声敏感的问题。最终影响了模糊粗糙特征选择及相关分类模型的性能
学位
全媒体时代网络新技术的发展和应用,促进了新媒体技术与高校法治教育的深度融合,客观上推动了高校法治教育模式的变革。全媒体时代高校法治教育蕴含着拓展法治教育载体、改革法治教育模式、丰富法治教育方法和加强主客体间对话等价值,通过探索实现“媒介技术+法治教育”的模式转化,要在加强社会主义核心价值观的价值引领、完善协同育人体制机制和提升教育主客体媒介素养等方面推进具体实践,加强高校法治教育立德树人的质效。
期刊
分类任务作为机器学习中的重要课题之一,在许多方面已经得到了广泛应用。基于数据引力的分类方法由于模型简单高效而愈发受到关注,而大多数基于数据引力的分类方法在训练时通常不考虑数据特征的质量,平等的利用所有数据进行训练,因此影响了模型的训练结果。另外这些方法大都采用的是整体累加求和的计算方式进行分类,这种做法可能会导致样本间的冗余表达和信息丢失而导致误分类。为了解决这些问题,本文首先提出了一种以不一致性
学位
模糊推理已成功应用于多个领域,包括模糊专家系统,模糊决策分析,模糊模式识别等。在模糊推理系统中,当模糊规则库密集时,即规则的前件完全覆盖输入论域时,传统的模糊推理方法(即合成推理)可以获得相应的结论。当模糊规则库中包含“空隙”,即在稀疏规则库条件下,给定的观察值不与规则库中的任何规则前件部分重叠,采用合成推理方法无法匹配任何的规则,并且不能得出任何结论。在这种情况下,利用模糊规则插值法可以实现模糊
学位
图像生成是机器学习领域的一项研究任务,其目标是学习数据潜在分布,从而产生能够以假乱真的高质量图像样本。目前研究者们提出了很多生成模型应用于图像生成任务,并且已取得一定效果。但是,如何生成高质量的数据样本仍然是计算机领域不断追求的目标。目前,有关图像生成方法主要存在以下两个难点:一方面,生成图像样本模式单一,无法完全覆盖训练图像样本的所有模式,即出现模式损失问题;另一方面,由于模型设计本身存在固有的
学位
近年来,随着数据挖掘技术的日益成熟和离群点检测研究的持续深入,离群点检测研究已经在欺诈行为识别、网络恶意入侵检测和医疗健康检测等多个领域得到了广泛的应用。离群点检测技术虽然在理论研究和应用系统构建方面已经取得了很大进步,但是在无监督和半监督离群点检测中,仍存在算法对数据的适应性差和对数据信息利用不足等问题,还需开展深入研究。基于上述背景,本文针对无监督和半监督离群点检测中的问题,开展了以下研究工作
学位
汽车行业正处于智能变革的时代,自动驾驶可以提供更安全、更节能、更高效、更舒适的出行体验,毫无疑问是国际公认的未来汽车发展方向。其意义不仅在于该行业的技术升级,更会带来全球化供应链和产业生态的革新,是各国必争的战略高地。随着深度学习和计算机视觉技术的兴起,自动驾驶为提升交通安全与效率提供了新的解决方案。其中视觉与红外相机为自动驾驶技术中所有传感器里最被看好也是最有发展潜力的,如何快速准确得识别定位行
学位
对海量数据进行深层次的分析利用推动了数据挖掘技术的发展,聚类分析作为数据挖掘中的关键算法,已应用到众多领域。基于聚类分析与培养质量评估在本质上的一致性,可将该算法应用于研究生培养质量评估领域。针对培养质量数据集多样性和模糊性的特点,本文提出了一种面向培养质量评估的特征加权聚类算法,可以对培养质量进行高效、精准地聚类分析。本文的主要研究工作如下:(1)深入研究HCM算法和MG算法的核心思想,针对其为
学位
目标检测的任务是在特定场景下找出图像中所有感兴趣的目标并确定目标的特征信息,包括目标的位置、目标综合评分以及目标所属的类别。目前,目标检测广泛应用于自动驾驶、行人检测、工业检测等诸多领域,是计算机视觉领域的核心问题之一。近年来,随着人工智能的发展,基于深度学习的目标检测算法开始得到广泛的研究和应用。其中实时目标检测算法YOLOv3的检测速度较快且精度良好,广泛用于各类实时目标检测应用中。YOLOv
学位