基于KM-SMOTE随机森林算法的心血管疾病预测模型研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:firelord128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代医疗作为政府最重视的民生保障,在互联网+的时代不断地进行着变革。传统的人工医疗渐渐地不能够满足行业的发展和人民的需求,因此医疗系统的信息化与数字化转型迫在眉睫。许多学者将医学数据与人工智能、机器学习模型相结合,建立了新兴的数字化医疗技术,辅助医生进行疾病诊断的同时,也大大节省了医疗行业的人力物力资源,这种双赢的局面使得互联网医疗技术成为不断发展的热点技术,为数字化医疗的发展带来更多更新的动力。心血管疾病作为当代全球发病率最高的疾病,由于心血管疾病有较为复杂的病因、较高的死亡率和愈后残疾的情况,结合现代人们压力大、作息不规律、暴饮暴食等问题,心血管疾病的发病朝着年轻化的趋势发展,因此对于心血管疾病患病情况的预测与防范是非常急迫的事情。本文选取了2019年Kaggle网站上的心血管疾病数据作为研究对象,首先将数据进行预处理,填补数据的缺失值并将心血管疾病数据的12个影响指标进行量化,将是否患有心血管疾病转化为定量二分类数据。接下来建立基于K-means算法的改进KM-SMOTE算法,该算法以SMOTE算法为基础,能够处理数据集中的数据不平衡问题。KM-SMOTE算法首先利用K-means算法聚类少数集样本,聚类后得到K组数据,并基于插值估算近似值,利用每一组内的样本生成更多少数类样本,这样做可以改善SMOTE算法影响源数据分布以及边缘化少数类样本的问题。以KM-SMOTE算法处理后的平衡数据为样本,前70%为训练集数据,后30%为测试集数据,建立随机森林模型对心血管疾病进行预测,得到的预测结果为:准确率为92.4%、召回率为90.0%、精确度为89.8%、F1Score值为89.9%、AUC值为0.916,表示KM-SMOTE随机森林模型能够很好的预测心血管疾病。新增2021年心血管疾病数据集验证模型准确率,对2021年新数据建立KM-SMOTE随机森林模型,各指标均为0.9以上,表明KM-SMOTE随机森林模型对不同年份的数据均有较好的预测精度。同时,将KM-SMOTE随机森林与传统随机森林模型和SMOTE随机森林模型的预测情况进行对比,KM-SMOTE-RF模型的各项指标都明显高于其他两个模型,意味着改进的KM-SMOTE算法对不平衡数据集的处理有着较好的效果。
其他文献
近年来,我国居民收入水平不断提升,从我国汽车保有量来看,我国还有较大的增长空间。当前,我国汽车消费的主体逐渐呈现年轻化,汽车金融市场渗透率不断提升,消费观念也不断转变,更加倾向于以分期付款的方式进行消费,对个人汽车贷款需求量大幅提升,为我国汽车金融持续发展创造了良好环境。我国汽车金融经过这几年的不断发展,竞争呈现白热化态势,想要在我国激烈的汽车金融市场中占有一席之地,获得更多的资金支持是必不可少的
学位
当前,我国基础设施建设规模庞大,融资需求增加,但目前的融资渠道不畅通,融资模式与基础设施行业特征难以匹配。REITs作为一种能够吸收社会资本、盘活企业存量资产、降低融资成本的创新融资方式,是解决当前包括产业园区在内的基建企业融资难题的钥匙。2021年6月,我国上市了首批基础设施公募REITs产品,正式拉开了我国基础设施公募REITs试点的帷幕,产业园是本次基础设施REITs试点的重点行业之一。为研
学位
川渝地区是我国中西部地区发展水平最高、发展潜力最大的省级行政区域,也是实施长江经济带和“一带一路”倡议的重要组成部分。随着互联网等现代信息技术的快速发展,金融市场以及金融产品的信息化和网络化程度不断加深,数字金融应运而生,并成为当前经济发展新阶段不可或缺的因素。本论文立足于川渝地区的县域行政单位,研究了区域内数字金融和经济发展的总体分布情况、空间聚类情况以及驱动因素的空间模型分析。论文选取了川渝地
学位
资本市场的快速发展导致并购案例数量激增,而在并购实践中运用对赌协议可在一定程度上解决并购中的委托代理问题、道德风险和信息不对称风险。然而,如果被投资方被并购方无法完成对赌目标,将会造成对赌式并购失败,进而投资方权益将会受损及所面临风险的增加。本文选取阅文集团与新丽传媒对赌式失败的典型并购案例,厘清该对赌式并购发生的动因,探寻并购失败背后的深层次原因,进而考察对交易双方造成的经济后果,这能够为未来资
学位
由于电信业务的快速发展,服务供应商更倾向于扩大用户群,这意味着电信客户将有多样的选择。为了满足在竞争环境中生存的需要,留住现有电信客户已成为一项巨大的挑战,电信客户流失率问题自然成为运营商所面对的一个重大课题,关系到公司未来的发展前景。本文针对电信客户流失问题开展研究工作,构建基于机器学习的电信客户流失预测模型,使企业能够精准预判电信客户流失与否,从而创造更大的利润。本文主要使用Kaggle竞赛网
学位
20世纪90年代,我国成立两个证券交易所,开创了在社会主义制度下建立股票市场的先河。自此,我国股票市场开始逐渐发展和完善,拥有的股票种类越来越多,同时也受到越来越多投资者的关注。2021年,我国设立了北京证券交易所,这也有利于推动股票市场的高质量发展。然而,目前股票市场还存在中小投资者非理性投资、过分投机的现象,以及资源配置不合理,风险波动大的情况。本文研究如何合理制定股票配对交易的套利策略,旨在
学位
随着中国经济步入高质量发展阶段,单纯依靠投资驱动和要素扩张推动经济增长的模式受到资源、环境以及要素成本等多重因素的制约。在这样的背景下,如何转变新时期发展动能、推动产业结构优化升级、实现经济持续稳定增长,成为亟待解决的关键问题。“一带一路”倡议作为中国践行“走出去”战略、深化对外开放格局的关键一步,为中国企业在全球范围内配置资源提供了便捷的平台和广阔的机遇,参与“一带一路”建设的企业积极开拓全球市
学位
中国是全球智能手机用户第一大国,并且手机用户的数量还在呈现逐年上涨的趋势,但是国产手机用户的渗透率不高,海外手机对国产手机形成巨大压力。国产手机市场犹如一片“红海”,市场上的产品同质化严重,价格竞争十分激烈,智能手机行业开始进入不健康的发展期。随着5G技术的不断应用,5G手机开始成为行业的主流,根据2021年上半年中国信息通信研究院发布的数据显示:国内市场5G手机出货量为1.51亿部,同比增长94
学位
近年来,移动互联网与大数据技术的高速发展加快了智能移动设备的普及,提高了文娱消费能力,促进了文娱产业数字化转型,在线视频行业呈现出了蓬勃的生命力,成为人们生活中的“必备品”。然而,在人口红利减弱的时代背景下,在线视频行业正面临着市场同行竞争激烈、产品同质化严重、获客成本变高、用户增长乏力等发展问题,用户成为各大视频网站的争夺焦点。因此,有效利用平台海量、无序的用户行为数据,研究挖掘用户需求和产品痛
学位
随着互联网逐步成熟、移动智能化设备日益普及,互联网社交逐渐走向了自媒体领域,网络平台中的视频数据呈爆发式的增长,导致用户不能精准的获得自己特别感兴趣的视频内容。面对丰富的网络信息资源,如何既快速又高效地帮助用户找到自己真正感兴趣的信息是如今讨论的热点问题,而建立视频点击率预测模型就是解决该问题的关键。视频点击率预测主要是在上下文有效信息的基础上,对用户点击某个视频的概率进行预测。由于各类先进的机器
学位