面向高维删失数据的多任务生存分析模型研究与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:qgdjyahaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生存分析旨在预测某个感兴趣事件发生前的延续等待时间,已广泛应用于临床治疗中患者的生存状态分析和故障诊断中机械系统的运行时间预测等领域。近年来,随着各种信息采集技术和大数据技术的快速发展,高维数据在各类生存分析问题中频繁出现,如何高效地利用这些高维小样本的删失数据,从而提高生存分析模型的预测精度,成为了一个不可忽视的挑战。国内外的研究者们已经针对上述问题提出和改进了许多预测模型,并取得了一定的研究成果。然而,这些模型有些假设条件过于严格,或者没有充分考虑到高维小样本数据中固有的先验信息,在实际应用中无法取得满意的效果。同时,收集到的数据中可能存在各种未知噪声,这也会导致模型无法精确地预测感兴趣事件的发生时间。为了克服上述缺陷,本文引入矩阵补全理论,将最初的生存分析问题建模为多任务直推式的矩阵补全模型,并递进地提出了两种生存分析预测模型。本文的主要研究内容和创新点如下:1)针对生存分析中高维删失数据所固有的数据标记不完整及高维小样本导致的过拟合缺陷,提出了一种先验信息引导的直推式矩阵补全生存分析模型,该模型不仅能有效利用删失实例来弥补训练样本的不足,也能通过同时探索训练样本和测试样本的特征分布来改善模型的泛化能力。同时,我们还设计了一类新颖的多任务直推式特征选择机制来进一步缓解模型的过拟合缺陷。最后,在多个真实数据集上进行了实验,结果显示该模型在C-index和加权平均AUC指标上表现很出色。2)针对数据中可能存在的未知复杂噪声,进一步提出了一种噪声容错弱监督矩阵补全生存分析模型。通过引入混合高斯分布来拟合实际应用中所面临复杂环境下的未知噪声,从而能够减轻模型的噪声敏感性。针对模型所涉及的多个超参数,为了能够更快和更好地寻找到最优的参数值,采用了贝叶斯优化方法来自适应地选择模型参数。最后,多个微阵列基因表达数据集上的实验结果证实了所提出的WSTMC模型优于当前广泛使用的生存分析方法。
其他文献
方便旗船现象在海上运输领域由来已久,虽然表面上来看方便旗船的存在并未违反国际法和国内法,但其却因可能对劳工权益、海上安全、海上环境保护等方面造成的不利影响而一直颇受诟病。而在国际航空运输领域,方便旗航司问题此前并未引起广泛关注,直到2013年挪威穿梭航空(Norwegian Air Shuttle ASA)的全资子公司挪威国际航空有限公司(Norwegian Air International L
脉冲星源自演化到末期的大质量恒星,经过核坍缩后、超新星爆发形成,其本质是高度磁化的旋转中子星。脉冲星具有精确且规则的周期、体积小、密度大、高速旋转等特性。脉冲星的
由于环境问题日益严峻以及石油化工产品的减少,可再生资源代替石油化工原料制备聚合物的研究逐渐引起人们的关注。本文使用蔗糖、环氧大豆油等生物基原料,通过酯交换、环氧开
石油是作为一种重要的能源物质,海洋勘探与货轮运输是获取石油的一种重要方式,然而在开采与运输过程中由于人为与环境等不稳定因素的影响会发生突发性海洋溢油事故。在事故发生后需要有相应的应急技术与后续措施处理海面溢油的清理工作,溢油的清理过程需要结合多种措施。其中,高效环保的吸油材料作为一种必不可少的应急物资被众多研究者关注。本文以苎麻纤维为基底,利用聚多巴胺的生物活性与粘附性将低表面能物质正十二硫醇与十
锂离子电池由于存在易燃、易挥发的电解液而具有不安全性,开发固态电解质是解决该问题的有效办法之一。聚合物固态电解质因其易加工、柔顺性而成为首选材料,其中PEO基聚合物电解质的研究最为普遍,但是PEO存在室温下电导率低、机械性能差等缺点。低聚物PEGDA添加到聚合物电解质中,可以保持电解质膜的柔韧性并且当作交联剂时可以提高机械强度。离子液体因其离子电导率高、热力学性能稳定等优点,被用作聚合物电解质中的
硝基呋喃类抗生素(Nitrofurans,NFs)是一类人工合成的广谱抗生素。NFs,特别是呋喃西林(Nitrofurazone,NFZ)已被广泛应用于鱼,虾和家禽的胃肠道和皮肤病感染的预防和治疗。在
FoxO3基因属于Fox基因家族中的一员,在机体内主要起到转录因子的作用,其本身可以被磷酸化、乙酰化、泛素化等多种方式进行翻译后修饰,在体内分布广泛,心脏、脑、脾脏、肾脏、
天然气水合物作为目前最炙手可热的清洁能源之一,它对资源分配以及经济发展具有非常重要的作用。本论文建立了对天然气水合物中水体组分的分析方法和对其气体分子的分析方法,
背景和目的:临床上经常以射血分数(Ejection Fraction EF)作为评价患者心脏收缩功能指标;然而,EF作为一种整体功能测量指标,其变化大多发生在心脏疾病的后期,不能识别心脏早期功能障碍和评估局部心肌损伤,因此EF值不能完全反映患者心脏收缩功能。目前,心肌形变作为另外一种评估心脏功能指标,其在检测心肌早期损伤和评估心肌局部损伤具有很大优势。本研究采用心脏磁共振组织追踪技术(CMRTT)
塑料地膜覆盖能有效地克服作物遇到的许多非生物胁迫(如低温、干旱等)。在早春低温和有效积温少的地区,地膜覆盖可以提高玉米苗期的土壤温度出苗率,从而增加玉米产量。然而,塑料地膜技术的飞速发展也带来了十分严峻的环境问题。土壤中大量塑料残膜的积累使土壤板结,土壤水分和养分向下运输受到阻碍;与此同时,会使作物根部的生长受到阻碍,降低作物出苗率;或是在农田、乡间小道随风飘荡,造成白色污染。生物降解地膜是一类在