基于Copula熵的交互式基因选择算法及其在癌症预测中的应用

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:outtersea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组高通量测序(genome high-throughput sequencing)技术的快速发展,使得研究者们对于人类遗传变异的研究逐渐向分子水平扩展。基因组结构变异(Genome Structural Variation,GSV)便是其中的一种。拷贝数变异(Copy Number Variations,CNVs)是GSV的重要形式之一,这种变异占据人类基因组总长度的大约12%左右。越来越多的和CNVs相关的临床研究表明,基因组拷贝数变异与人类疾病尤其是癌症密切相关。因此,利用拷贝数变异的基因表达数据对癌症进行诊断、预测与治疗具有相当重要的意义。通常情况下,基因数据都是高维数据,具有样本少维度高的特点。数据中的某些基因对某些疾病状态的影响是很小的甚至是微不足道。将它们运用于癌症诊断与预测中不仅会降低数据集的训练效率,延长训练时间,而且还会对学习算法的性能产生负面影响。基于此,我们需要尽可能筛选出有助于识别癌症类别的基因,去除与癌症相关性较小的基因特征,并构建一种高效的具有可解释性的癌症预测模型。本文提出一种两阶段的交互式基因选择算法:CRIA(Correlation-Redundancy and Interaction Analysis based on gene selection algorithm)。该算法通过计算特征与类标签之间的相关性,特征与特征之间的冗余度及其交互作用,可以从全基因组中筛选出与癌症类型密切相关的基因,从而准确地对癌症进行诊断与预测。CRIA算法主要由两个阶段组成:第一阶段通过计算原始特征集中的每个特征与类标签之间的对称不确定度来选择其最大值作为主效应特征,将主效应特征加入已选特征集中并从原始特征集中删除。第二阶段通过在每一轮特征选择中,对候选特征集中的每个特征进行相关性、冗余性和交互作用分析之后,我们选择可以使自定义选取标准的值最大化的特征添加到已选特征集中,然后将其从候选特征集中删除。重复第二阶段直到已选特征集中的特征数达到阈值。通过将CRIA算法所选择的特征数据与其他算法所提取的特征数据进行实验对比,发现CRIA算法整体上优于其他方法,并且该算法所提取的特征具有良好的可解释性。另外,本文还提出一种基于密集连接机制的双层Stacking模型:DSDC(Double-layer Stacking model based on Dense Connection mechanism),来提高预测结果的准确度。DSDC模型在传统的单层Stacking模型上增加了一组基模型,并利用“密集连接机制”的思想,将原始训练数据与第一层基模型的预测结果合并起来作为第二层基模型的输入,这样能充分地利用原始数据更好地对其进行拟合。基于本文收集到的真实拷贝数变异数据集,我们利用CRIA算法选择与癌症类别最为相关的前200个基因特征数据集,然后在DSDC模型上进行实验来预测癌症。实验结果表明,与最新的研究结果相比,CRIA算法可以有效地提取基于拷贝数变异数据的关键基因特征,DSDC模型有更好的分类性能和更优的分类准确度。最重要的是,我们可以直观地观察到哪些基因与癌症是高度相关的。这使得基因选取结果具有可解释性,也便于为癌症的检测与后续治疗提供基因水平上的一种新的线索。本文的研究成果在临床上也具有一定的现实意义。基因数据的特征选择是从基因表达数据中预测临床风险和生物标志物的一项基本任务。对于实际问题,为了选择重要的基因以便随后对具有超高维但样本数少的基因组数据集进行癌症分类,本文提出CRIA算法用于高维基因数据的特征选择在尽可能不损失原始数据信息的条件下,可以筛选出较少的与癌症类型高度相关的基因减少工作量,而且构建的DSDC模型还能提高癌症分类性能。
其他文献
人类对于能源的需求量随着社会经济与科技的发展与日俱增,不可再生能源的损耗量越来越大,由不可再生能源带来的环境污染问题越来越严重,大力发展清洁能源实现“碳达峰、碳中和”目标非常重要。世界各国已将太阳能作为大力发展绿色清洁能源的重要研究方向。随着太阳能光伏电站的发展,加强光伏电站的故障预警能力对于保障光伏电站的安全、高效运行和提高维保人员的工作效率至关重要。本文开发了一套太阳能电池板智能故障诊断系统,
学位
甲状腺结节是一种临床常见病症,B型超声技术是甲状腺结节的主要检查方法,甲状腺影像报告与数据系统(TI-RADS)提供了一套超声征象描述词典以及定性评价方案,是医生在临床诊断时的重要参考标准。甲状腺结节的评估通常依赖于放射科医生的经验,而且很耗时。计算机辅助诊断(CAD)可以提供客观的建议,减轻医生的负担。但在以往的研究中提出的诊断模型往往只是简单地给出结节的良性或恶性预测,医生无从得知模型决策的依
学位
荧光粉转换白光LED具有高能效、低成本、长寿命等优势,广泛应用于照明领域,提高荧光粉转换白光LED的光效一直是该领域的研究热点。为了对白光LED的高性能封装进行设计优化和制备,采用模拟仿真以及实验测试相结合的方式,对LED芯片封装进行研究分析,采用了特制支架和双芯片封装,提高灯珠光效,在此基础上,改进了荧光粉涂覆工艺,提高了荧光粉激发效率,整体提高LED光效约6%,且研究了远程荧光粉与芯片的距离变
期刊
农业是国民经济的重要基础,农业生产关系到国计民生与社会稳定等重要问题。快速而准确地获取农作物种植面积可以为相关部门提供及时、准确的农情信息,对制定相应的农业政策和促进我国精准农业的发展具有重要的意义。遥感影像由于其具有覆盖范围广、易获取等特点,被广泛应用于农作物种植面积的提取。目前对遥感影像农作物种植面积提取采用传统方法居多,耗时费力,难以提取影像丰富特征,精度较低。深度学习以其启发式的学习策略和
学位
在互联网的浪潮中,人们对网络的依赖日益增加,社交媒体也随之快速发展,凭借其海量的信息和高效的传播速度为人们生活带来了巨大的影响。在社交媒体上,用户是主体,内容是信息传播的载体,用户的身份信息在一定程度上代表着其发布内容的可信度。但是,随着社交平台上用户数量与信息规模的增加,谣言问题也日趋严峻,这些谣言的产生与传播离不开异常用户的推波助澜,为社交平台的可用性和安全性带来了巨大的负面影响,造成了很多严
学位
<正>近年来,随着欧洲对美国“回归”热情退潮,德法等国强化“战略自主”呼声渐高,美欧在经贸领域的“结构性分歧”日益凸显,尤其是围绕产业竞争、市场争夺、规则制定、政策协调等方面的矛盾和争端呈现出不断加深的态势。综合分析,考虑到历史纠葛和现实利益等原因,美欧经贸领域“结构性矛盾”短期内得到实质性改善的可能性并不大。
期刊
蒸发(Evaporation)过程直接或间接影响着气候变化和农业生产。农业生产主要依赖于对现有水资源的有效利用,特别是易干旱、干旱、半湿润和半干旱等缺水地区。蒸发量的精确预测对合理开发利用水资源、旱涝变化趋势研究和农作物灌溉用水量的估算具有十分重要的意义。蒸发皿蒸发量(Pan Evaporation)是衡量蒸发量大小的重要指标,是有时序特征的数据对象,有特定的时间间隔,具有数据量大且数据结构复杂的
学位
为进一步实现绿色节能的运营理念,国内已有多家运营单位对新车选型、既有线车辆改造工作选用永磁牵引系统代替传统异步牵引系统。以哈尔滨地铁2号线车辆永磁牵引系统为例,对永磁与异步牵引系统的控制原理、选型配置、牵引性能等方面进行介绍,并结合牵引能耗、再生能耗的运营数据,对哈尔滨地铁2号线车辆永磁和异步牵引系统能耗情况进行对比分析,并阐述永磁牵引系统的技术优势、经济效益及未来的发展趋势,以期为同类型系统选型
期刊
量子导引作为一种不同于量子纠缠、量子关联的量子特性,被广泛地应用于各种量子计算、量子信息任务当中,例如量子信道鉴别、量子密钥分发等等。作为一种重要的物理资源,该量子特性一直被人们所广泛深入地进行研究,其中一个重要的研究内容就是如何判定任意量子态的量子可导引性。对于任意量子态的量子可导引性判定目前主要的处理方法是利用理论定义式进行判定,该方法强烈依赖于测量方式以及测量个数的选择,致使该方法判定过程复
学位
随着互联网的发展和普及,网络媒体平台已经成为人们快速获取和共享信息的重要渠道。然而,媒体平台在给人民生活带来便利的同时也成为虚假信息产生与传播的重灾区。网络虚假信息具有种类繁多、数据量大、迷惑性强等特点,单纯依靠人工检测效率极低。因此,如何在信息发布早期准确、快速的检测虚假信息是亟待解决的关键问题。目前虚假信息检测的相关工作主要以信息文本、传播结构和用户画像作为研究对象。其中,基于传播结构和用户画
学位