基于stacking融合模型的脂肪肝致病影响因素的筛选分析

来源 :重庆大学 | 被引量 : 0次 | 上传用户:nimabe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习的各种方法的层出不穷与不断改进,其适用范围也变得越来越广泛。而如今它在生物医学领域相结合的应用也比比皆是。本文旨在探索脂肪肝的患病因素,从地区居民的实际体检数据出发,对脂肪肝疾病的影响因素的重要性进行排序,建立机器学习患病风险预测模型,并对结果进行优劣评价。本文研究利于为医疗工作者提供新视角,进行进一步的病理研究,为脂肪肝疾病患者有效减少诊断成本,并加强相关方面的预防和及时的治疗、诊断工作。本文首先进行了数据的清洗,包括对缺失值进行诊断,并选择使用删除与多重填补法,对异常值通过统计方法及医学背景相结合的方式进行了识别与处理,最后应用Balance Cascade方法对不平衡数据做出处理。本文采用了七种指标筛选的方法,即Lasso回归、交叉验证、随机森林法、过滤法、包装法、IV值法和本文所使用的改进的基于随机森林的Filter特征选择算法。同时运用了K最近邻,朴素贝叶斯,Logistic回归,BP神经网络模型四种初级监督学习算法和Stacking集成算法共五种机器学习算法。基于处理后的实际体检数据,以及筛选后的致病因素分别建立相关的风险预测模型,采用机器学习和诊断医学的几种不同标准对各个模型做出分类预测准确性的评价。最后通过AUC值作为最终评价依据给出模型优劣的结论。在全部的体检数据38个指标中,对脂肪肝患病致病影响最大的9个因素由高到低分别是:体重指数、空腹血糖、总胆固醇、收缩压、动脉粥样硬化指数、r.谷氨酰转肽酶、性别、腰围和淋巴细胞数。其中前三个指标对于脂肪肝患病的解释比例为46.92%,他们共同对于脂肪肝患病的解释比例可达76.03%。在脂肪肝风险预测模型中,对于单一模型来说表现最好的是BP神经网络模型,在未患病群体中被预测出来为阴性的概率为81.2%,患病群体中检测的真阳性率为89.1%,AUC值为0.900。集成模型stacking融合模型中未患病群体被预测出来为阴性的概率为80.7%,患病群体检测的真阳性率为87.5%,AUC值为0.914。由AUC值可以看出数据清洗和变量筛选的工作都是富有成效的,并且集成模型的效果确实优于单一模型。
其他文献
目前,我国几乎所有与大气污染相关的指标排放均排世界前列。大部分地区雾霾天气频繁,空气质量不容乐观。空气暴露污染可导致过敏性疾病发病率升高,其中过敏性鼻炎作为常见的非感染性炎症疾病,全球约有10%~20%的人口患有。且一旦患病,尚无法根治,对人群的身心健康造成极大的困扰。本文从两个方面对空气污染对过敏性鼻炎的影响进行了研究。首先,基于广义相加模型对空气污染物(PM2.5、PM10、O3、SO2、NO
学位
随着年轻一代逐渐成为餐饮行业消费的主力军,消费者在饮食方面的需求日趋多元化,加之餐饮业态本身的多样性,餐厅面临着房租高、人力成本高、食材成本高而毛利低的困境,这使得降低成本的问题变得越来越紧迫,而人力成本和食材成本往往与销量相关,因此精准预测菜品销量一直是餐厅关注的重点。由于在线评论反映了消费者的就餐体验,同时还是用户决定是否消费的一个重要因素,因此本文试图从细粒度的角度挖掘在线评论中的信息,进而
学位
随着汽车保有量的逐渐增加与自然灾害的频发,汽车保险的费率厘定更加受到保险公司的重视。中国银保监会2020年9月发布的指导意见中提出,加大车险改革力度,更加科学地厘定费率,使得车险价格与风险更加匹配。目前广义线性模型是车险纯保费费率厘定的主流方法,而随着大数据的发展,集成学习方法也被逐渐应用于车险纯保费计算当中。基于法国第三方责任车险的索赔数据集freMTPL2freq和freMTPL2sev,在考
学位
随着5G时代的到来,网络招聘已经成为了大家求职的主要途径。网络招聘信息能够直观地反映岗位的需求情况,对于大数据时代中应运而生的数据分析类岗位,在网络招聘中也表现出了高薪资、供不应求以及地区差异明显等特征。其中岗位薪资更是求职者所密切关心的问题。因此本文一共进行了数据分析类岗位需求和薪资影响因素两个方面的研究。数据分析类岗位需求数据分析方面,本文利用网络爬虫技术共获得招聘网站上12107条数据分析类
学位
大数据时代的到来,不断推动着互联网金融的飞速发展,进一步促使了各类P2P网贷平台的数量与日俱增,P2P网贷平台一方面降低了借贷者的融资门槛,更加高效便捷,极大地提高了资金利用效率。另一方面,由于互联网金融的虚拟性、隐蔽性,互联网欺诈的事件层出不穷,如何控制P2P网贷平台用户的信用风险成为当前风险领域的研究难题。同时,对于高维度且海量的用户数据,集成学习算法凭借着高精准性、高稳定性,为识别违约用户、
学位
物流车辆管理及调度优化是降低物流运输业务成本,稳步提高物流服务质量的核心,被称作第三利润源泉。合理高效组织物流运输,开展运输车辆及驾驶人员调度可提高车辆利用率,降低空载率,极大减少运输成本,已经得到各大物流企业和园区工业运输管理部门的高度重视。然而,迄今为止,实际生产中车辆调度组织严重依赖人工经验指导,国内外车辆管理及调度优化的研究存在解算效率低下和难以实际应用等问题。因此,亟需新技术,新方法的提
学位
随着我国经济水平和教育水平飞速提升,人类健康意识也逐渐增强,更加关注自身的健康问题。而大数据时代的到来,使得机器学习、人工智能与医疗领域的联系日渐紧密,精准医疗这一新型医疗模式应运而生,力求疾病能够得到精准预测、精准诊疗和精准预后,但目前该技术还在全力研究中,尚未得到全面普及。心力衰竭作为高发率和高死亡率并存的重大疾病,前期多表现为各种心血管疾病,若是能够利用先进的科学技术,结合医生的专业知识和经
学位
二手车交易市场虽在近年来快速发展,逐渐繁荣,但仍然存在很多问题。尤其是对于二手车交易价格的评估,各平台以及个人对交易价格评估方法存在差异,导致交易过程中出现很多困难。因此,为了减少交易时各平台随意定价的行为,怎样对二手车交易价格进行一个准确的估计,从而使二手车交易市场更加规范,就显得尤为必要。本文首先分析了国内外二手车交易市场的现状,接着确定了研究方法与思路。影响价格波动的既有外部原因也有内部原因
学位
长久以来,心脏病都威胁着人们的生命健康安全,人们一旦患有心脏病,便会严重影响生活质量,大大增加医疗开销,增加生活成本,使很多不富裕的家庭不堪重负,甚至威胁到人们的生命。我们人类与心脏病展开了漫长的斗争,取得了很多喜人的医疗成果,有效提高了患者的存活率和生活质量。但是同样也存在着不足,因为心脏病发病往往很突然,且黄金抢救时间短暂,如果不能在4到6分钟内得到有效抢救,患者生还的希望就会很渺茫。一些患者
学位
乡村振兴战略是全国各族人民在习近平总书记的引领下,顺应人民意愿,在2017年党的十九大公告中明确提出的重要战略内容,充分体现了新时代中国共产党和我们国家对“三农”问题的高度重视,这一战略是为克服农村发展乏力困难、促进城乡统筹协调发展的重大科学举措。统计指标,具有科学反映农村总体对象数量特征的特征,可以直观反映乡村发展状况,通过确定的指标定量地反映乡村振兴战略实施的具体工作进度,通过乡村振兴战略实施
学位