随机森林-Lasso Logistic回归模型筛选脂肪肝健康风险因素效果研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:stcheer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,健康风险因素筛选已成为生物医学、生物统计学研究领域的热点问题。脂肪肝等慢性疾病风险因素众多,关系复杂,传统的因素筛选方法存在变量过多导致运算量大的问题。Lasso方法是通过构造惩罚函数压缩一些回归系数,从而得到一个较为精炼的模型,并且能同时实现变量选择和参数估计。随机森林方法是一种组成式的有监督的学习方法,通过构建决策树对样本进行分类,该方法的一个特点是可以度量变量重要性。本论文将随机森林与Lasso Logistic回归模型相结合,即随机森林-Lasso Logistic回归模型。为了评价随机森林-Lasso Logistic回归模型的应用效果,将该模型用于脂肪肝风险因素的筛选,分析脂肪肝风险因素。本研究主要作了以下工作:1.回顾了Lasso方法的国内外研究现状与进展,介绍了Lasso方法和Lasso Logistic回归模型的基本理论和算法以及将随机森林和Lasso Logistic回归模型结合的方法,复习了Lasso方法和Lasso Logistic回归模型调和参数?的选择方法。2.2019年12月在西部战区总医院健康管理中心收集到3724名健康体检者,经数据整理后,得到3500份有效样本,有效应答率为93.98%;3500名健康体检者的年龄为20~88岁,平均年龄为48.42?10.83岁,其中男性1982名(占56.63%),女性1518名(占43.37%),患有脂肪肝1049名(占29.97%,95%CI为(28.45%,31.49%))。3.探讨随机森林-Lasso Logistic回归模型、Lasso Logistic回归模型、最优子集回归模型、逐步Logistic回归模型筛选脂肪肝风险因素的效果。采用基于实际研究数据抽样产生模拟数据的方法,探讨不同样本量和阳性率的情况下,四种回归模型正确选择影响因素的平均数量和正确剔除影响因素的平均数量,每种情况模拟100次,模拟实验结果显示:随机森林-Lasso Logistic回归模型和Lasso Logistic回归模型正确选择影响因素的平均数量高于最优子集回归模型和逐步Logistic回归模型;当阳性率为50%时,四种回归模型筛选影响因素的效果最好。当样本量是自变量个数10倍以上时,样本量的改变对四种回归模型的影响不大。4.将随机森林-Lasso Logistic回归模型应用于脂肪肝健康风险因素筛选的实例研究,探讨随机森林-Lasso Logistic回归模型筛选脂肪肝健康风险因素的效果。采用交叉验证的方法将3500份有效样本划分为训练集和测试集,在训练集上建立随机森林-Lasso Logistic回归模型,再建立Lasso Logistic回归模型、最优子集回归模型和逐步Logistic回归模型,通过对比四种回归模型,探讨随机森林-Lasso Logistic回归模型的优势。分别评价四种回归模型的拟合效果和预测性能,结果发现:随机森林-Lasso Logistic回归模型的决定系数R~2和校正后的决定系数R~2的均值分别为0.627和0.621,Lasso Logistic回归模型、最优子集回归模型和逐步Logistic回归模型的决定系数R~2和校正后的决定系数R~2的均值均小于随机森林-Lasso Logistic回归模型。随机森林-Lasso Logistic回归模型的TPR、F-measure和AUC(受试者工作特征曲线下面积)的均值分别为0.675、0.702、0.785,Lasso Logistic回归模型、最优子集回归模型和逐步Logistic回归模型的TPR、F-measure和AUC的均值均小于随机森林-Lasso Logistic回归模型,随机森林-Lasso Logistic回归模型的拟合效果和预测性能均优于Lasso Logistic回归模型、最优子集回归模型和逐步Logistic回归模型。5.经模拟实验和脂肪肝风险因素筛选实例分析,验证了随机森林-Lasso Logistic回归模型是一种可用于慢性疾病健康风险因素筛选的较优的多因素分析方法,能更好地解释和分析所研究的因变量,具有更好的实际应用意义。
其他文献
近年来,储能式有轨电车在各国得到大力发展,其全线无网的运行模式规避了传统接触网式有轨电车发车间隔有接触网容量限制、影响城市美观、灵活性较差等劣势。地面充电装置技术与车载储能系统结合供电是目前有轨电车供电制式的研究热点,在满足车辆运行要求的前提下,将有轨电车储能系统与地面充电装置进行合理的配置,共同协作实现能源的高效利用与车辆的正常运行。这是传统电动汽车供电技术在有轨电车领域的尝试和突破,也是有轨电
随着电气化铁路不断向高速、重载方向发展,电能质量和电分相问题已成为电气化铁路亟需解决的两大难题。同相供电技术是这两个难题的理想解决方案。现有的同相供电系统方案存在有源补偿装置容量大、成本高等问题,限制了同相供电系统的推广应用。因此,降低有源补偿装置容量对同相供电技术的发展具有重要意义。本文首先总结了传统电气化铁路牵引供电系统存在的主要问题及同相供电系统的研究现状。概括了同相供电系统的实现方式及系统
在企业的生产管理中,如何建立一套科学合理的绩效分配方案是生产企业绩效管理的难点。同时如何发挥员工积极性,更高提高生产效率,保障生产节点的任务完成也是企业生产管理的重中之重,因此,构建合理的绩效分配方案不仅是企业内部生产的要求,也是企业适应社会发展、完善内部管理、提高自身竞争力的有效措施。CF公司是我国大型的航空制造型企业,近年来随着产品结构的升级,各生产工序的加工也变得复杂,这样对生产车间员工的考
企业发展战略规划赋予了企业新的灵魂,明确了企业的未来发展方向,界定了其业务范畴,有利于现有资源的集中再分配,给企业提供了具有可行性的发展举措。与此同时,企业制定发展
回流系统电气参数和回流系统设备是影响轨电位的主要因素,而对轨电位和杂散电流防治起关键作用的回流系统电气参数就是过渡电阻,所以提高过渡电阻测量精度十分必要。而且由于轨道交通供电系统的贯通性,线路中的穿越电流对轨电位及杂散电流造成不利影响,针对末端所轨电位普遍较高的情况,研究回流系统设备对轨电位造成的影响也具有十分重要的意义。在实际运营线路中,由于有结构钢筋线路过渡电阻测量易受远端轨电位限制装置接地,
近年来,汉语在国际上备受关注,越来越多的国家和地区开始接触汉语、了解汉语、开设汉语课程。蒙古国作为中国的邻近国家,为了加强和中国的经济、文化等各方面的交流,也开始在各大、中、小学增设汉语课,课型多样,近几年,汉语口语课日益受到重视,成为必修课程,但由于汉语本身的难度以及本地教学方法单一,教学效果差强人意,有待提高。笔者有幸通过国家汉办汉语教师志愿者选拔考试,被分配到蒙古国科布多大学开展初级汉语口语
英语阅读教学是学生理解和吸收书面信息的主要途径,是培养综合语言运用能力的基础和前提,有助于学生丰富语言知识,提高学习能力,扩大国际视野,形成跨文化意识等。英语阅读教学也是落实英语学科核心素养的主要途径之一。目前,国内的英语阅读教学热度逐年上升,人们的关注点逐渐由课内教材的使用向课外资源转移。我所在地区使用的教材中,四年级的阅读教学版块内容以简短小语段为主,这样的设计突出了语言结构,但同时也导致语言
高速铁路牵引供电网系统(下文简称:车-网系统)出现低频振荡现象,严重威胁着铁路运输的安全。本文以基于电力电子变压器的牵引传动系统为研究对象,以提升车-网系统稳定性为研究目标,采用主导极点法,通过建立车-网系统的闭环传递函数,研究多车接入牵引网的稳定性问题。首先,建立车-网系统的数学模型。基于车-网系统的交互特性,建立牵引供电系统的等效输出阻抗模型。根据平均值建模方法,得到电力电子变压器的平均等效电
震源破裂过程的研究对于了解地震成灾特性以及震源破裂的特征有着重大意义。基于远场P波数据快速反演得到震源破裂的历史,有助于震后快速获取破裂过程的时空特征,为震后减灾和地震救援等工作服务。此外,因为在近场区地震动受震源影响显著,而使得快速合理地表达震源破裂过程对近场地震动模拟亦十分重要,可服务于工程结构抗震分析。本文以2017年九寨沟地震为目标,使用远场P波数据快速反演了其震源破裂过程。同时,建立了九
确保车载电缆终端正常运行,是保障动车组安全稳定运行的必要条件。随着国内高速铁路线路的不断增加,越来越多的动车组需要适应在高海拔、低气温的环境下工作,随着动车组车辆和电缆终端数量使用地不断增加,在冬季外界气温较低时,一些电缆终端在动车组的出库过程中出现了爆炸等事故,该问题严重影响了动车组的稳定运行,威胁着动车组供电系统。基于车载电缆终端出现的以上问题,开展复杂工况下车载电缆终端多物理场特性的相关研究