基于多任务学习模型的癌症基因生存分析研究

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:nihaoyuyue2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生存分析是当今热门的统计学分支,它是分析生存现象和响应时间数据及其规律的一类统计分析方法。生存分析的研究通常是针对所研究的事物建立相应的模型,通过数据特征进行生存时间预测并进行系统的分析,在医学、生物制药、商业与工业等均有广泛的应用。然而在收集临床病例数据时,往往受到删失数据的影响导致许多算法无法使用。而使用如Cox比例风险模型或参数回归模型等模型需要对数据进行一些严格的假设,这种做法破坏了事物原有性质,对实际问题的研究是非常不合适的。为了解决上述两种限制条件,本文使用了一种基于多任务学习模型的癌症基因生存分析方法。此算法是一种归纳迁移学习方法,它可以共享相关任务之间的表征,充分获取删失数据特征中的信息,利用隐含在各特征间的特定领域信息来提高模型的泛化能力,能够更好地概括原始任务,解决了其他生存分析算法无法使用删失数据进行训练的问题。同时,在使用多任务学习时不需要对原问题进行任何额外的假设,针对完整的问题进行建模,大大增加了预测精度。本文的研究重点主要放在如何将生存分析的预测工作转化成使用多任务学习算法来分析建模,提高生存分析的预测性能。研究工作分为以下几个部分:(1)基础技术研究与相关算法考察。本文详细分析了领域内相关算法对删失数据的处理,通过算法分析、搭建模型、实验与分析等步骤系统地分析了不同算法间处理删失数据的差异,为文本的模型的搭建提供了理论依据。(2)基础模型与优化算法选择。本文一个很重要的研究目的是如何充分使用删失数据中的信息来提高模型的预测准确度。使用多任务学习模型作为基础模型能够共享相关任务间的表征,利用隐含的特定领域信息来提高模型的泛化能力。同时还引入了矩阵范数惩罚项与交替方向乘子算法,用于解决模型的过拟合问题。(3)模型的搭建与改进。本文将生存分析中生存时间预测问题转化为经典的二分类回归问题,使用了新的目标函数来解决转化后的回归问题。而解决凸优化问题时引入的交替方向乘子算法进行优化求解。最后对模型的收敛性与时间复杂度进行分析与总结。(4)实验结果分析。本文使用的数据集为几个主流的高维癌症基因表达生存数据集,使用了本文算法与几种常见的生存分析算法进行了实验,并使用C-index值和AUC值作为评价指标,实验最后还对模型的可扩展性进行了验证。
其他文献
化石燃料的燃烧为人类社会带来便利的同时也造成了CO_2的过度排放。作为CO_2转化的有效方式之一,CO_2甲烷化反应可实现碳资源的循环利用并得到清洁燃料。本论文以金属有机骨架材料(MOFs)为前驱体制得以镍为活性金属和以钴为活性金属的两种催化剂,并探讨了其在CO_2甲烷化反应中的性能。分别以MOFs作为碳化前驱体和载体通过直接碳化或负载镍盐制备了镍基催化剂。将骨架中含有金属Ni的Ni-MOF-74
本研究运用2015年H大学9006名本科生就读经历调查数据,比较不同学科学生的分析和批判思维能力、定量能力、专业能力的增值,以及满意度和归属感,探究学科对上述学习效果的净影响,以及不同学科学习效果影响因素的异同。研究发现,人文社科在分析和批判思维能力、专业能力上比自然科学增值更多。法学、建筑学和文学对定量能力增值有显著的负影响。人文学科满意度最高,社会科学和自然科学满意度相当。工学在归属感上得分最
我国在经历了近40年的改革开放之后,已经进入中等收入国家行列,与此同时,人民对美好生活的需求正在日益增长,其中食品消费正由生存型消费向健康与享受型消费转变,由对“量”
推荐系统是解决信息过载问题的一个重要手段,然而推荐系统长期面临着数据稀疏性以及冷启动等问题。造成这些问题的主要原因有以下两个方面:一方面,推荐算法存在模型上的局限,难以对稀疏数据进行处理;另一方面,推荐算法的参照角度比较单一,对系统中有效信息的挖掘不够充分,造成冷启动问题,并影响推荐效果。混合推荐算法是目前推荐系统领域的主要研究方向,通过对推荐算法或模型的组合,能一定程度地弥补单一模型存在的缺陷,
随着消费社会的出现和广告符码的广泛使用,品牌符号消费已经成为人们的选择,在这种消费方式的影响下,社会上出现了消费异化和广告符码拜物教现象。美国传播学者苏特·杰哈利注意到消费社会中的广告符码拜物教现象,他的广告符码拜物教理论为我们看待广告符码的作用和消费物化现象提供了一定的理论启示。本文主要分析了杰哈利广告符码拜物教理论产生的社会背景、理论来源及主要内容,最后用马克思的观点对杰哈利的广告符码拜物教进
随着经济的不断发展,中小企业的规模和数量都得到了不断的壮大,在我国市场经济中占据着愈发重要的地位。中小企业虽然规模较小,但对促进我国经济发展起到了至关重要的作用,同时也为我国税收收入做出了巨大贡献。但是由于中小企业自身特点的局限性,如财务制度不健全,财务人员及办税人员素质参差不齐等,为中小企业税源管理带来了一定难度。加之国地税机构改革后,中小企业的涉税事项更加全面,税源管理人员需要面临更多的管理事
本文以包头五当召通用机场为例,针对山区机场建设存在的高填方等地基处理问题开展了系统研究,就本项目工程解决了填方高度大于20m的大石块、土石混合材料高填方地基加固材料的选配、分层填筑方法和强夯加固施工参数以及处理后地基检测方法等一系列关键问题。强夯法对于地基处理具有工艺简单、施工速度快、节省材料及工程造价等许多优点,但相关方面的理论研究相对较少,设计计算还处于由经验和定性的基础上,因此,通过对石拐五
长期以来,中国经济虽稳步增长,但近年来被两大难题所困扰:其一、环境污染;其二、产能过剩。其中,制造业又是两大难题表现最为普遍,程度较为严重的行业。诸如钢铁、水泥、玻璃、金属冶炼等原材料行业,是名副其实的严重环境污染和严重产能过剩并存的“双重”行业,极大制约了中国制造业的转型升级以及经济的健康发展。实际上,环境污染和产能过剩为一个问题的两个方面,联系紧密。环境监管在有力约束制造业上游“双重”行业的同
同时同频全双工在相同时隙和频率上收发信号,增加带宽利用率的同时也带来不可避免的同频自干扰问题,数字自干扰抑制技术作为数字域手段被采用。数字自干扰抑制主要有频域抑制和时域抑制两种,针对室内5G场景,多径丰富,考虑可实现性,需要研究低复杂度的数字自干扰抑制问题。其次,室内存在人员多,活动多的特点,导致信道变化快的情况,要求数字自干扰抑制具有较好的实时性。针对上述两个问题,论文具体研究如下:第一,解决低
白菜、甘蓝和甘蓝型油菜等作物作为我们国家北方最常见的蔬菜和油料作物,非生物胁迫例如干旱、高盐等都对作物的质量和产量都造成非常严重的影响。ABA(Abscisic acid)即脱落
学位