基于XGBoost和随机生存森林的Cox半参数回归模型及应用

来源 :兰州大学 | 被引量 : 0次 | 上传用户:nesecueity
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生存分析被广泛应用于医疗、经济、工业、社会科学等领域,生存分析用于研究生存现象和生存时间及其影响因素的统计规律,目前已经有很多传统的统计推断方法在生存分析领域被广泛应用.近年来,随着机器学习算法的快速发展,已有很多算法被引入生存分析领域并在实践中验证了此类算法优越的建模能力和预测性能.本篇论文的目的是基于生存分析提出一种新的回归算法Survival Boost,该算法基于随机生存森林和XGBoost.同时,为了让算法更有效地处理生存数据,本文将弹性网络的惩罚项和Cox比例风险模型引入了XGBoost算法.本文在4个模拟数据集和4个实际生存数据集上,与传统生存分析回归算法Cox比例风险模型、XGBoost算法、Cox Boost算法、随机生存森林和梯度提升树(Gradient Boosting Desicion Tree)算法进行了回归预测性能的比较,验证了本文提出的算法具有较好的预测性能.同时,本文利用了Shapley Additive Explanation values(SHAP值)的方式进行模型特征的解释分析,从而进一步说明了本文提出的算法可以有效地指导生存分析的诊断与实践.
其他文献
对于股票价格的预测是近几年来机器学习和深度学习领域中热门的研究方向之一,其主要方法是将原始的股票价格序列送入神经网络,通过神经网络进行拟合,最终对未来的价格进行预测。更进一步地,研究人员会对原始股票价格序列进行处理,比如使用时间序列的方法,或者给原始股票价格序列加上权重,使其更符合一般投资者的经验直觉。通过上述的方法进行组合研究,也是该领域的热门方向之一。本文就是基于过去学者所提出的方法进行组合研
学位
土地资源的开发利用关系着国家产业结构、环境保护等方面,及时了解土地使用现状具有重要的意义。然而目前利用人工审核来判断土地使用现状的方案存在时效性低,工作量大,投入成本高等问题。随着深度学习技术的快速发展,将深度学习应用到图像场景识别已成为计算机视觉领域的重要研究内容。本论文面向土地举证照片数据,使用深度卷积神经网络对土地场景分类展开研究,提出两种适用于土地图像场景分类的方法。本文的主要工作如下:首
学位
随着大数据时代的到来,互联网上数据的规模极速膨胀,海量数据逐渐导致了用户很难及时准确地发现其感兴趣的信息,即信息过载现象。传统的门户网站已经无法满足时代发展的需求。因此,如何帮助用户从海量信息中发现其感兴趣的信息已经成为一个迫切需要解决的问题。推荐系统已经成为大数据时代帮助用户挖掘其偏好的有力工具,也创造了大量的经济价值。当下流行的基于图的推荐模型,能将用户、物品、属性等各种重要对象,以显示或隐式
学位
裂缝检测是评估结构损伤程度的重要步骤,为了实现自动化裂缝检测,需要把裂缝从图像中分割出来。基于图像的裂缝自动检测是保证硅酸盐水泥混凝土和沥青混凝土路面安全性和耐久性的一项重要任务。路面的破坏取决于许多原因,包括水的入侵,来自重负荷的应力,以及所有的气候影响。一般来说,裂缝是路面出现的第一个问题,适当的监测和维护以防止裂缝蔓延或形成是重要的。传统的裂纹检测和测量算法耗时长,效率低。因此,自动裂纹检测
学位
近年来,无线身体局域网(WBAN)成为了实施远程医疗监测的有效技术手段之一,可以通过佩戴式或者植入式的传感器采集体征数据,由网关传输至后台,极大地降低了医疗成本,可应用于疾病的早期预防与检测。由于在WBAN中传输的体征信息属于个人隐私且用于判断病情,因此必须保证其在公共信道中安全的传输,任何形式的篡改或删除都可能导致对用户造成严重后果。然而,传感器的计算能力、功耗与体积限制了WBAN的安全保护强度
学位
随着经济的飞速发展,空气污染已成为全社会关注的重点问题。近年来,我国大部分地区都出现过雾霾,且从2013年开始,雾霾连续四年被纳入我国国家安全事件。大气污染防治是消除雾霾的重要途径,空气质量预测可以为大气污染防治和人们出行提供预见性信息。因此,建立科学、有效的空气质量预测模型具有重要的现实意义。在已有研究的基础上,本文提出CEEMD-LASSO-ELM组合模型预测AQI,旨在为建立可靠的AQI预测
学位
偏微分方程作为数学工具,常用于各种建模问题中,在工程、物理和医学等领域中都发挥着重要的作用。光纤通讯、电磁场、分布参数电路等常涉及到偏微分方程的求解问题,但方程的解析解难以获取。传统的数值求解方法利用网格剖分对方程近似求解,而网格剖分严重影响解的精确度,在求解过程中也会带来巨大的存储代价和计算代价,造成计算效率低下等问题。在2022年国家自然科学基金委员会发布可解释、可通用的下一代人工智能方法重大
学位
目前脑卒中已经成为我国成人致死、致残的首位病因,其中21%-38%的脑卒中患者会患上失语症。现存至少十几万潮州方言失语症患者,然而至今全球仍然没有一个面向潮州方言失语症患者的失语症评定方法。国内外常用的失语症评定方法过程繁琐、时间过长,许多失语症患者,尤其处于卒中急性期的失语症患者,无法忍受这种形式的言语评估。其次,这些评定方法都没有对潮州方言的当地文化以及口音进行特色化适配,导致了潮州方言失语症
学位
Stacking算法是提高分类器性能的常用方法。Stacking首先训练多个初级分类器;然后将初级分类器的结果作为输入,训练得到一个强分类器。本文将探究Stacking算法在输出变量为定序变量时以及在输入数据为文本时的应用。(1)Stacking算法在定序数据中的应用研究。定序数据是存在顺序关系的离散型数据。常规的Stacking算法在处理定序数据分类任务时没有兼顾定序变量之间的顺序关系,导致分类
学位
面部表情是人们心理活动最直接的反映,对面部表情进行分析有助于计算机理解人们的情感状态。面部表情的形成过程是面部肌肉和面部皱纹共同作用的过程,同时伴随着面部形状的变化,因此,面部表情识别需要更好的形状、纹理等特征描述符来表示面部表情。面部特征的提取和描述在决定面部表情识别系统的准确率中举足轻重。在本文中,我们提出了一种基于空间金字塔的Zernike矩特征和面部表情纹理的Law纹理特征相融合的特征提取
学位